我的python爬虫面试题总结

最新推荐文章于 2024-07-31 20:49:46 发布

编程叫兽

最新推荐文章于 2024-07-31 20:49:46 发布

阅读量1.5k

点赞数

分类专栏： python高效学习方法文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/QQ2352108083/article/details/129842942

版权

经验分享，话不多说，直接开干！
1、描述下 scrapy 框架运行的机制？
从 start_urls 里获取第一批 url 并发送请求，请求由引擎交给调度器入请求队列，获取完毕后，调度器将请求队列里的请求交给下载器去获取请求对应的响应资在这里插入图片描述
源，并将响应交给自己编写的解析方法做提取处理：

(1) 如果提取出需要的数据，则交给管道文件处理；

(2) 如果提取出 url，则继续执行之前的步骤（发送 url 请求，并由引擎将请求交给调度器入队列…)，直到请求队列里没有请求，程序结束。

2、谈谈你对 Scrapy 的理解？
scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。Scrapy 使用了 Twisted 异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

scrapy 框架的工作流程：

(1) 首先 Spiders（爬虫）将需要发送请求的 url(requests)经 ScrapyEngine（引擎）交给 Scheduler（调度器）

(2) Scheduler（排序，入队）处理后，经 ScrapyEngine，DownloaderMiddlewares(可选，主要有 User_Agent， Proxy 代理)交给 Downloader

(3) Downloader 向互联网发送请求，并接收下载响应（response）。将响应（response）经ScrapyEngine，SpiderMiddlewares(可选)交给 Spiders
在这里插入图片描述