Python——scrapy框架

Scrapy:一款流行的网络爬虫框架,它使用了一些高级功能以简化网站爬取。

Scrapy的安装

安装命令:pip install scrapy
利用命令:scrapy -h 检查是否安装成功
scrapy安装信息

scrapy框架结构

在这里插入图片描述
数据流动:
1.spider——>engine:engine从spider获得爬取请求(request)
2.engine——>schedule:engine将爬取请求发送给scheduler,用于调度
3.schedule——>engine:engine从schedule获取下一个要爬取的请求
4.engine——>download:engine将请求通过中间件2发送给download
5.download——>engine:爬取网页后,download形成响应(response)通过中间件发送给engine
6.engine——>spider:engine将收到的response通过中间件发送给spider处理
7.spider——>engine:spider处理响应后产生新的爬取项和新的爬取请求发送给engine
8.engine——>item:engine将爬取项发送给item(框架出口)
9.engine——>scheduler:engine把新的请求发送给scheduler

scrapy常用命令

命令作用
startproject创建新的工程
genspider创建新的爬虫
settings获取爬虫配置信息
crawl运行一个爬虫
list列出工程中所有爬虫信息
shell启动url调试 命令行

scrapy命令详情

项目

运行starproject,生产第一个项目。scrapy项目的默认结构为

scrapy.cfg			'''配置'''
example/
	_init_.py
	items.py		'''定义待抓取域的模型'''
	middlewares.py	'''控制请求和中间件响应'''
	pipelines.py	'''处理域'''
	settings.py		'''框架设置,如用户代理、爬取延迟等'''
	spiders/		'''存储爬虫代码'''
		_init_.py
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值