Python爬虫、数据清洗与可视化-4 - scrapy

最新推荐文章于 2023-12-08 02:46:41 发布

Adrian-11

最新推荐文章于 2023-12-08 02:46:41 发布

阅读量784

点赞数

分类专栏： python爬虫学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56267896/article/details/114989978

版权

新手学习日记1：
简介
Scrapy 是一个基于Twisted （用Python实现的基于事件驱动的网络引擎框架）的异步处理框架，是纯Python 实现的爬虫框架，其架构清晰，模块之间的耦合程度低，可扩展性极强，可以灵活完成各种需求，只需要定制开发几个模块就可以轻松实现一个爬虫。

一、scrapy框架架构图
在这里插入图片描述
二、爬虫执行流程

1.Engine引擎开始
调用了spiders中的spider的启动方法
2. 获取到了spider中start_urls
3. 将urls转换成请求（request）发送出去
4. request通过downloader进行下载，请求
5. 生成response
6. response通过engine返回到spider中的回调函数 parse上
7. parse中做数据提取
下一个请求的地址
数据都需要通过yield进行返回处理
8. yield的地址会提交到Engine，分配到调度器，开始进行上面过程的循环

yield的数据，会交给ItemPipeline
存储

三、框架使用
1-1创建工程

scrapy startproject projectName

1-2进入工程目录：这里一定要进入到刚才创建好的目录中

cd projectName

1-3创建爬虫文件：创建的爬虫文件会出现在之前创建好的spiders文件夹下

scrapy genspider spiderName www.xxx.com

1-4执行爬虫文件

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫、数据清洗与可视化-4 - scrapy

1-1创建工程scrapy startproject projectName1-2进入工程目录：这里一定要进入到刚才创建好的目录中cd projectName1-3创建爬虫文件：创建的爬虫文件会出现在之前创建好的spiders文件夹下scrapy genspider spiderName www.xxx.com1-4执行爬虫文件scrapy crawl spiderName1-5保存数据：scrapy crawl *** -o xx.json #输出json格式文件scrapy
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。