附答案 | 最强Python面试题之爬虫框架问题

、烟雨楼

于 2022-09-18 14:06:29 发布

阅读量375

点赞数 1

分类专栏：面试语言 phtyon 文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/m0_72444380/article/details/126917071

版权

本文整理了最强Python面试题，聚焦Scrapy爬虫框架，涵盖其运行机制、理解、增量爬取、数据去重、优缺点等关键点。详细解释了Scrapy如何与数据库交互、去重策略以及分布式爬虫解决方案，帮助读者深入理解Scrapy及其在实际项目中的应用。

摘要由CSDN通过智能技术生成

主要内容

这些面试题是我结合自己的经验整理的，主要就是下面这 5 个专题：

Python 基础面试题（已完成）
Python 进阶（已完成）
Python 后台开发（已完成）
爬虫
机器学习

对每道面试题我都会附带详细的答案，有些我觉得重要的内容会详细讲解，虽然是面试八股文，我还是希望大家不是只“知其然”，更得“知其所以然”。

关于更新频率，每天我会更新 10 道题左右，总共会有差不多 200 道。

无论是准备面试还是自己学习，这份面试题绝对值得你去看，去学习。

以下是正文

1、描述下 scrapy 框架运行的机制？

从 start_urls 里获取第一批 url 并发送请求，请求由引擎交给调度器入请求队列，获取完毕后，调度器将请求队列里的请求交给下载器去获取请求对应的响应资源，并将响应交给自己编写的解析方法做提取处理：

(1) 如果提取出需要的数据，则交给管道文件处理；

(2) 如果提取出 url，则继续执行之前的步骤（发送 url 请求，并由引擎将请求交给调度器入队列...)，直到请求队列里没有请求，程序结束。

2、谈谈你对 Scrapy 的理解？

scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。Scrapy 使用了 Twisted 异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

scrapy 框架的工作流程：

(1) 首先 Spiders（爬虫）将需要发送请求的 url(requests)经 ScrapyEngine（引擎）交给 Scheduler（调度器）

(2) Scheduler（排序，入队）处理后，经 ScrapyEngine，DownloaderMiddlewares(可选，主要有 User_Agent， Proxy 代理)交给 Downloader

(3) Downloader 向互联网发送请求，并接收下载响应（response）。将响应（response）经ScrapyEngine，SpiderMiddlewares(可选)交给 Spiders

(4)Spiders 处理 response，提取数据并将数据经 ScrapyEngine 交给 ItemPipeline 保存（可以是本地，可以是数据库）。提取 url 重新经 ScrapyEngine 交给 Scheduler 进行下一个循环。直到无 Url 请求程序停止结束

3、什么是增量爬取？

增量爬取即保存上一次状态，本次抓取时与上次比对，如果不在上次的状态中，便视为增量，保存下来。对于 scrapy 来说，上一次的状态是抓取的特征数据和上次爬取的 request 队列（url 列表），request 队列可以通过 request 队列可以通过 scrapy.core.scheduler 的 pending_requests 成员得到，在爬虫启动时导入上次爬取的特征数据，并且用上次 request 队列的

最低0.47元/天解锁文章

、烟雨楼

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
附答案 | 最强Python面试题之爬虫框架问题

增量爬取即保存上一次状态，本次抓取时与上次比对，如果不在上次的状态中，便视为增量，保存下来。对于 scrapy 来说，上一次的状态是抓取的特征数据和上次爬取的 request 队列（url 列表），request 队列可以通过 request 队列可以通过 scrapy.core.scheduler 的 pending_requests 成员得到，在爬虫启动时导入上次爬取的特征数据，并且用上次 request 队列的数据作为 start url 进行爬取，不在上一次状态中的数据便保存。
复制链接

扫一扫

专栏目录