Python 爬虫框架Scrapy

Shinersmile

已于 2023-01-10 11:55:26 修改

阅读量3.6k

点赞数 12

分类专栏：数据爬虫文章标签： python 爬虫 scrapy

于 2023-01-09 18:20:36 首次发布

本文链接：https://blog.csdn.net/Shinersmile/article/details/128616691

版权

在scrapy中，会专门定义一个用于记录数据的类，实例化一个对象，利用这个对象来记录数据。每一次，当数据完成记录，它会离开spiders，来到Scrapy Engine（引擎），引擎将它送入Item Pipeline（数据管道）处理。定义这个类的py文件，是items.py。

摘要由CSDN通过智能技术生成

Scrapy的原理

一般，实现一次爬虫需要导入和操作不同的模块，比如，requests、gevent、csv等模块。但是在Scrapy里，许多爬虫需要涉及的功能，在框架里都自动实现了。

工作流程
Scheduler(调度器)主要负责处理引擎发送过来的requests对象（即网页请求的相关信息集合），会把请求的url以有序的方式排列成队，并等待引擎来提取（功能上类似于gevent库的queue模块）。

Downloader（下载器）则是负责处理引擎发送过来的requests，进行网页爬取，并将返回的response（爬取到的内容）交给引擎。

Spiders(爬虫)主要任务是创建requests对象和接受引擎发送过来的response（Downloader部门爬取到的内容），从中解析并提取出有用的数据。

Item Pipeline（数据管道）只负责存储和处理Spiders部门提取到的有用数据。

Downloader Middlewares（下载中间件）的工作，比如会提前对引擎大boss发送的诸多requests做出处理。

Spider Middlewares（爬虫中间件）则相当于爬虫的秘书，比如会提前接收并处理引擎大boss发送来的response，过滤掉一些重复无用的东西。

在Scrapy里，整个爬虫程序的流程都不需要我们来操心。且程序全都是异步模式，所有的请求或返回的响应都由引擎自动分配处理，即使出现异常，程序也会做异常处理，跳过报错的请求，继续向下执行。

Scrapy的用法

1.安装Scrapy模块

pip install scrapy
#windows
pip3 install scrapy
#mac

2.创建Scrapy项目

打开cmd终端，先跳转到目标目录下，cd 文件夹名，如果想要跳转硬盘，直接输入盘名D:。
之后，创建项目scrapy startproject 项目名,回车之后，项目就创建成功了。
项目目录下，spiders文件夹专门用来放置爬虫，items.py用来定义数据，pipelines.py用来处理数据，settings.py来进行各种设置。

3.定义item数据

比如说，获取的数据是出版的书籍信息，我们要爬取的是书名、出版信息和评分，下方代码都参照这个例子：

import scrapy
#导入scrapy
class Item(scrapy.Item):
#定义一个类DoubanItem，它继承自scrapy.Item
    title = scrapy.Field()
    #定义书名的数据属性
    publish = scrapy.Field()
    #定义出版信息的数据属性
    score = scrapy.Field()
    #定义评分的数据属性

4.创建和编辑爬虫文件

在spider文件目录下，创建爬虫文件。

import scrapy
import bs4
from ..items import Item

导入scrapy模块，之后用创建类的方式写爬虫，所创建的类将直接继承scrapy中的scrapy.Spider类。

class Spider(scrapy.Spider):
	name=

最低0.47元/天解锁文章

Shinersmile

关注

12
点赞
踩
49

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫框架Scrapy

在scrapy中，会专门定义一个用于记录数据的类，实例化一个对象，利用这个对象来记录数据。每一次，当数据完成记录，它会离开spiders，来到Scrapy Engine（引擎），引擎将它送入Item Pipeline（数据管道）处理。定义这个类的py文件，是items.py。
复制链接

扫一扫