scrapy

最新推荐文章于 2024-08-05 10:37:56 发布

Detective_0

最新推荐文章于 2024-08-05 10:37:56 发布

阅读量493

点赞数

文章标签： python 数据分析

本文链接：https://blog.csdn.net/Detective_0/article/details/106166498

版权

Scrapy是一个Python爬虫框架，包含Engine、Scheduler、Downloader、Spiders、Item Pipeline和Middleware等组件。它提供了命令行工具，如yield关键字的使用、CrawlSpider、Scrapy Shell等。中间件用于处理Downloader的输入输出，如反爬虫策略。Scrapy Shell用于测试数据提取，还支持文件和图片下载，如Files Pipeline和Images Pipeline。Scrapy支持分布式爬虫，可结合scrapy-redis进行使用。

摘要由CSDN通过智能技术生成

爬虫框架

软件结构就功能组件集合，使用的模板。5+2结构

Engine：调度中心

Scheduler调度器：待爬取URL，去重

Downloader下载器：获取页面信息

Spiders：初始request，分析response并提取item，额外的Request

Item Pipeline：处理数据，存储

Spider middlewares：处理spider的输入(response)和输出(item, requests)，修改丢弃新增请求和响应

Downloadr middlewares：可通过设置自动更换user-agent，IP；修改丢弃新增请求或爬取项

Data flow:

1.引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。

2.引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。

3.引擎向调度器请求下一个要爬取的URL。

4.调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件((request)方向)转发给(Downloader)。

5.下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。

6.引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。

7.Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。

8.引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。

9.(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站。

用户编写模块（配置）：Spiders、Item Pipelines（三个已写好的）
比较：

相同：无处理js、提交表单、应对验证码等功能（可扩展）

requests：网页，功能库，重点在下载，定制灵活

scrapy：网站，框架，并发性好，重点在爬虫结构，深度定制困难

常用命令：

scrapy-h：scrapy命令行

命令行格式：scrapy<command>[options][args]

命令	说明	格式
startproject	创建新工程	`scrapy startproject <name>[dir]`
genspider	创建爬虫	`scrapy genspider [options]<name><domain>`
settings	获取爬虫配置信息	`scrapy settings [options]`
crawl	运行爬虫	`scrapy crawl <spider>`
list	列出工程所有爬虫	`scrapy list`
shell	启动URL调试命令行	`scrapy shell [url]`

实例：

http://python123.io/ws/demo.html

建立工程

python123demo/:外层目录，
scrapy.cfg：部署配置文件
python123demo/：自定义python代码
_init_.py：初始化脚本
items.py items：代码模板（继承类）,放爬取的数据模型
middlewares.py：Middlewares代码模板（继承类）

pipelines.py：Pipelines代码模板（继承类），存储到本地

settings.py：Scrapy爬虫的配置文件，请求头，多久发送，IP代理

spiders/：Spiders代码模板目录，爬虫放在这

_init_.py：初始化脚本

_pycache_ ：缓存目录，无需修改
产生爬虫：
配置爬虫：

修改URL

修改parse：fname名字

settings : 建议设置：ROBOTSTXT_OBEY=False（？不一定，慎重，类人爬取可以）

DEFAULT_REQUEST_HEADERS = {} #伪装身份

DOWNLOAD_DELAY = 1

items里定义好模型的类，

去spider下from… import NameItem，

itemnaem=NameItem(a=a, b-b, c=c)``yield itemname

pipeline中dumps要同dict()

pipeline的三个方法：

open_spider, process_item, close_spider；

执行pipeline先去settings里取消注释ITEM_pipelineS

优化：pipeline

JsonItemExporter：占内存

JsonLinesItemExporter：每次写入，一行

找到下一页标签：yield scrapy.Request(next_url, callback=self.parse())
运行

        
# 1.cd目录
# 1.建立工程
scrapy startprojection proname

# 2.产生爬虫demo.py
cd python123demo
scrapy genspider spidername 'domain...(网址)'

# 3.修改spidername.py 文件
class DemoSpider(scrapy.Spoder):
    ...
    
	def parse(self, r

最低0.47元/天解锁文章

Detective_0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
scrapy

爬虫框架软件结构就功能组件集合，使用的模板。5+2结构 Engine：调度中心 Scheduler调度器：待爬取URL，去重 Downloader下载器：获取页面信息 Spiders：初始request，分析response并提取item，额外的Request Item Pipeline：处理数据，存储 Spider middlewares：处理spider的输入(response)和输出(item, requests)，修改丢弃新增请求和响应
复制链接

扫一扫