scrapy面试个人总结问题

最新推荐文章于 2024-04-23 12:45:14 发布

阿泽Az

最新推荐文章于 2024-04-23 12:45:14 发布

阅读量1.2k

点赞数

文章标签：面试 python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/az123qq_/article/details/124875514

版权

简单爬虫：
使用Python内置的urlib 库获取网页的Html信息
用的方法的 request
使用Request可以添加请求头参数，模拟浏览器发送请求

scrapy爬虫：
爬虫原理
1）Scrapy Engine引擎
负责控制数据流在系统组件的流动，当特定动作发生时触发事件
2）Scheduler调度器
从引擎中接收request并且将他们入队
3）Downloader下载器
负责获取页面数据并且提供给引擎，之后提供给spider
4）Spiders爬虫
它是Scrapy用户编写用于分析response并且获取item或者额外的数据
5）ItemPiPeline管道
负责将Spider爬虫提取出来的数据进行持久化保存
6）Downloader Middleware下载器中间件
是引擎和下载器之间特定组件，拥有㔘Downloader传递给引擎response
7）Spider Middleware Spider中间件
处理spider输入response与输出items和requests

爬虫流程：
首先加入浏览器代理配置、数据库配置、数据传输配置，
配置 pipelines.py 让数据实现持久化存储，
编写爬虫文件，
配置下载相关数据管道，
过程中可以对数据进行去重处理。
使用异步方式把数据存入数据库/ /使用pymysql库把数据存入数据库，/

浏览器爬虫原理：
首先

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
scrapy面试个人总结问题

简单爬虫：使用Python内置的urlib 库获取网页的Html信息用的方法的 request使用Request可以添加请求头参数，模拟浏览器发送请求scrapy爬虫：爬虫原理1）Scrapy Engine引擎负责控制数据流在系统组件的流动，当特定动作发生时触发事件 2）Scheduler调度器从引擎中接收request并且将他们入队 3）Downloader下载器负责获取页面数据并且提供给引擎，之后提供给spider...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。