Python——scrapy框架

最新推荐文章于 2024-04-27 07:42:33 发布

瓦砾

最新推荐文章于 2024-04-27 07:42:33 发布

阅读量299

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_39810306/article/details/103548734

版权

python 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

Scrapy：一款流行的网络爬虫框架，它使用了一些高级功能以简化网站爬取。

Scrapy的安装

安装命令：pip install scrapy
利用命令：scrapy -h 检查是否安装成功
scrapy安装信息

scrapy框架结构

在这里插入图片描述
数据流动：
1.spider——>engine：engine从spider获得爬取请求（request）
2.engine——>schedule：engine将爬取请求发送给scheduler，用于调度
3.schedule——>engine：engine从schedule获取下一个要爬取的请求
4.engine——>download：engine将请求通过中间件2发送给download
5.download——>engine：爬取网页后，download形成响应（response）通过中间件发送给engine
6.engine——>spider：engine将收到的response通过中间件发送给spider处理
7.spider——>engine：spider处理响应后产生新的爬取项和新的爬取请求发送给engine
8.engine——>item：engine将爬取项发送给item（框架出口）
9.engine——>scheduler：engine把新的请求发送给scheduler

scrapy常用命令

命令	作用
startproject	创建新的工程
genspider	创建新的爬虫
settings	获取爬虫配置信息
crawl	运行一个爬虫
list	列出工程中所有爬虫信息
shell	启动url调试命令行

scrapy命令详情

项目

运行starproject，生产第一个项目。scrapy项目的默认结构为

scrapy.cfg			'''配置'''
example/
	_init_.py
	items.py		'''定义待抓取域的模型'''
	middlewares.py	'''控制请求和中间件响应'''
	pipelines.py	'''处理域'''
	settings.py		'''框架设置，如用户代理、爬取延迟等'''
	spiders/		'''存储爬虫代码'''
		_init_.py

瓦砾

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python——scrapy框架

Scrapy：一款流行的网络爬虫框架，它使用了一些高级功能以简化网站爬取。Scrapy的安装安装命令：pip install scrapy利用命令：scrapy -h 检查是否安装成功scrapy安装信息scrapy框架结构数据流动：1.spider——>engine：engine从spider获得爬取请求（request）2.engine——>schedule：en...
复制链接

扫一扫