Scrapy框架基础（一）

最新推荐文章于 2024-04-15 12:00:00 发布

王涛涛.

最新推荐文章于 2024-04-15 12:00:00 发布

阅读量370

点赞数

文章标签： python scrapy 爬虫框架

本文链接：https://blog.csdn.net/wangtaotao_/article/details/107446059

版权

八、Scrapy基础

1.scrapy的概念

Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性能数据的框架。

Scrapy底层使用了Twisted一步网络框架，可以加快我们的下载速度。

2.scrapy框架的作用

少量的代码，就能够实现快速的抓取

3.scrapy的工作流程

1.爬虫中的起始url构造成request对象—>爬虫中间件—>引擎—>调度器

2.调度器把request—>引擎—>下载中间件—>下载器

3.下载器发送请求，获取response响应—>下载中间件—>引擎—>爬虫中间件—>爬虫

4.爬虫提取url地址，组装成request对象—>爬虫中间件—>引擎—>调度器，重复步骤2

5.爬虫提取数据—>引擎—>管道处理和保存数据

3.1 scrapy的三个内置对象

request请求对象：由url method post_data headers等构成
response响应对象：由url body status headers等构成
item数据对象：本质是个字典

3.2 scrapy每个模块的具体作用

Scrapy Engin（引擎）总指挥：负责数据和信号在不同模块之间的传递
Scheduler（调度器）一个队列，存放引擎发过来的request请求
Downloader（下载器）下载把引擎发过来的requests请求，并返回给引擎
Spider（爬虫）处理引擎发过来的response，提取数据，提取url，并将给引擎
Item Pipline（管道）处理引擎传过来的数据，比如存储
Downloader Middlewares（下载中间件）可以自定义的下载扩展，比如设置代理
Spider MiddlewaresSpider（中间件）可以自定义requests请求和进行response过滤

4.scrapy的入门使用

4.1安装scrapy

命令 sudo apt-get install scrapy
或 pip/pip3 install scrapy

4.2 scrapy项目开发流程

1.创建项目
- scrapy startproject mySpider
2.生成一个爬虫
- scrapy genspider asd asd.cn
3.提取数据
- 根据网站结构在spider中实现数据采集相关内容
4.保存数据
- 使用pipeline进行数据后续处理和保存

4.2.1创建项目

scrapy startproject <项目名字>

生成的目录和文件作用：

items.py 自己预计需要爬取的内容
middlewares.py 自定义中间件的文件
pielines.py 管道，保存数据
settings.py 设置文件，UA，启动管道
spiders 自己定义的spider的文件夹
scrapy.cfg 项目的配置文件

4.2.2 创建爬虫

在项目路径下执行
scrapy genspider <爬虫名字><允许爬取的域名>

爬虫名字：作为爬虫运行时候的参数

允许爬取的域名：为对于爬虫设置的爬取范围，设置之后用于过滤要爬取的url，如果爬取的url与允许的域不通则被过滤掉

此时会出现一个以爬虫名字为名的.py文件，里面有三个参数和一个parse方法。

4.2.3.1完善爬虫

1.修改起始url
2.检查修改允许的域名
3.在parse方法中实现爬取逻辑

注意：

scrapy.Spider爬虫类中必须有名为parse的解析
如果网站的结构层次比较复杂，也可以自定义其他解析函数
在解析函数中提取的url地址如果要发送请求，则必须属于allowed_domains范围内，但是start_url中的url地址不受这个限制
parse()函数中使用yield返回数据，注意：解析函数种种那个的yield能够传递的对象只能是：BaseItem，Request，dict，None

4.2.3.2 定位元素以及提取数据、属性值的方法

解析并获取scrapy爬虫中的数据：利用xpath规则字符串进行定位和提取

1.response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法。

2.额外方法extract()：返回一个包含有字符串的列表

3.额外方法extract_first()：返回列表中的第一个字符串，列表为空没有返回None

4.2.3.3 response响应对象的常用属性

response.url：当前响应的url地址
response.request.url：当前响应对应的请求的url地址
response.headers：响应头
response.requests.headers：当前响应的请求头
response.body：响应体，也就是html代码，byte类型
response.status：响应状态码

4.2.4 保存数据

利用管道pipeline来处理（保存）数据

1.在pipelines.py文件中定义对数据的操作

定义一个管道类
重写管道类process_item方法
process_item方法处理完item之后必须返回给引擎

import json


class MyspiderPipeline(object):

    def __init__(self):
        self.file = open('itcast.json','w')


    # 爬虫文件中提取数据的方法每yield一次item，就会运行一次
    # 该方法为固定名称函数
    def process_item(self, item, spider):

        json_data = json.dumps(item, ensure_ascii=False) + ',\n'

        self.file.write(json_data)

        # 默认使用完管道，需要将数据返回给引擎
        return item

    def __del__(self):
        self.file.close()

2.在settings.py配置文件的第67行启用管道
```
ITEM_PIPELINES = {
    'myspider.pipelines.SpiderPipiline':400
}
```
配置项中键为使用的管道类，管道类使用.进行分隔，第一个为项目目录，第二个为文件，第三个为定义的管道类。

配置项中值为管道的使用顺序，设置的数值越小越优先执行，该值一般设置为1000以内。