Scrapy框架的安装和使用

最新推荐文章于 2022-07-28 21:33:58 发布

Kaaaakaki

最新推荐文章于 2022-07-28 21:33:58 发布

阅读量275

点赞数

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/Kaaaakaki/article/details/109492204

版权

本文详细介绍了如何安装Scrapy框架，并通过创建项目、定义spider、Item、解析Response、请求下一页内容以及使用Item Pipeline保存爬取结果到不同格式的文件。在Scrapy项目中，创建spider、Item用于定义爬取目标和数据结构，parse方法用于解析响应，Request用于生成后续请求。此外，还展示了如何利用Item Pipeline对爬取结果进行处理并存入MongoDB。

摘要由CSDN通过智能技术生成

https://github.com/Python3WebSpider/Python3WebSpider/blob/master/13.2-Scrapy%E5%85%A5%E9%97%A8.md

安装Scrapy 需要先安装 lxml pyOpenSSL Twisted PyWin32
安装好上述模块以后 pip install Scrapy

验证安装及创建一个Scrapy项目如果提示权限问题可以加sudo运行该命令
在这里插入图片描述

创建spider

在这里插入图片描述

执行完毕后 spiders文件夹中多了一个quotes,py的文件
在这里插入图片描述

name: 每个项目唯一的名字用来区分spider
allowed_domains : 允许爬取的域名如果初始或者后续请求链接不是这个域名下的请求会被过滤掉
start_urls : 包含了spider在启动时爬取的url列表初始请求由它来定义
parse（） : start_urls中的链接请求完成下载执行后的结果会作为唯一的参数传递给这个方法该方法负责解析返回的响应提取数据或进一步生成要处理的请求

创建Item

item保存爬取数据的容器
需要继承 scrapy.item 类定义类型为Field的字段
修改刚刚创建的项目中的 item.py 文件定义三个字段

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class  QuoteItem(scrapy.Item):
    #define the fields for your item here like:
    # name = scrapy.Field()
    text = scrapy.Field()
    author = scrapy.Field()
    tags = scrapy.Field()

解析Response

修改 spider.py中的parse()函数并使用 Item

import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        quotes = response.css('.quote')
        for quote in quotes:
            item = QuoteItem()
            item['text'] = quote.css(

最低0.47元/天解锁文章

Kaaaakaki

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Scrapy框架的安装和使用

https://github.com/Python3WebSpider/Python3WebSpider/blob/master/13.2-Scrapy%E5%85%A5%E9%97%A8.md安装Scrapy 需要先安装 lxml pyOpenSSL Twisted PyWin32安装好上述模块以后 pip install Scrapy验证安装及创建一个Scrapy项目如果提示权限问题可以加sudo运行该命令创建spider执行完毕后 spiders文件夹中多了一个quot
复制链接

扫一扫

专栏目录