Python网络爬虫之框架1

最新推荐文章于 2024-09-18 22:04:52 发布

菜鸟小超

最新推荐文章于 2024-09-18 22:04:52 发布

阅读量313

点赞数

分类专栏： python 爬虫 scrapy 文章标签： python 框架爬虫

本文链接：https://blog.csdn.net/weixin_41777118/article/details/89207255

版权

72 篇文章 1 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

scrapy不是一个简单的函数功能库，而是一个爬虫框架
爬虫框架：

ENGINE ：已有的，核心，控制所有模块之间的数据流，根据条件触发事件
SCHEDULER：已有的，对所有的爬虫请求进行调度管理
ITEM PIPELINES ：框架出口，用户编写，以流水线方式处理Spider产生的爬取项，由一组操作顺序组成，类似流水线，每个操作是一个item pipline类型，可能操作包括：清理，检验和查重爬取项中的HTML数据，将数据存储到数据库
SPIDERS ：框架入口，用户编写，解析downloader返回的响应，产生爬取项，以及额外的爬取请求
DOWNLOADER ：已有的，根据请求下载网页
2个MIDDLEWARE：Download Middleware：实施Engine，Scheduler和Downloader之间用户可配置的控制，即用户可以修改、丢弃、新增请求或响应。Spider Middleware，对spider的请求和爬取项的再处理。修改、丢弃、新增请求或爬取项。

相同点：两者都可以进行页面请求和爬取，Python爬虫的两个重要技术路线。两者可用性好，文档丰富，入门简单。
两者都没有处理js、提交表单、应对验证码等功能（可扩展）

不同点：

命令	说明	格式
startproject	创建一个新工程	scrapy startproject <name> [dir]
genspider	创建一个爬虫	scrapy genspidr [option] <name><domin>
settings	获取爬虫配置信息	scrapy settings [options]
crawl	运行一个爬虫	scrapy crawl <spider>
lsit	列出工程中所有爬虫	scrapy list
shell	启动URL调试命令行	scrapy shell [url]