北京理工大学-Python网络爬虫与信息提取学习笔记09

最新推荐文章于 2024-07-28 15:46:11 发布

I_HAVE_COME

最新推荐文章于 2024-07-28 15:46:11 发布

阅读量155

点赞数

文章标签： python

本文链接：https://blog.csdn.net/I_HAVE_COME/article/details/105563150

版权

pip install Scrapy安装

Scrapy不是一个函数功能库，而是一个爬虫框架
爬虫框架是实现爬虫功能的一个软件结构和功能组件集合
爬虫框架是一个半成品，能帮助用户实现专业网络爬虫
有5个主要模块，SPIDERS、ENGINE、SCHEDULER、DOWNLOADER、ITEM PIPELINE
其中用户需要编写配置的是SPIDERS和ITEM PIPELINES，剩下三个已有实现

Scrapy爬虫框架解析
ENGINE是所有模块的核心，控制所有模块之间的数据流
DOWNLIADER：根据请求下载网页
SCHEDULER：对所有爬取请求进行调度管理
Downloader Middlerware：实施ENGINE、SCHEDULER和DOWNLOADER之间进行用户可配置的控制，修改、丢弃、新增请求或相应。用户可以编写配置编码
SPIDER：解析DOWNLOADER返回的响应，产生爬取项，产生额外的爬取请求
ITEAM PIPELINES：以流水线方式处理SPIDER产生的爬取项。由一组操作顺序组成。类似流水线，每个操作是一个ITEM PIPELINE类型。可能操作包括：qingli、检验和查重爬取项中的HTML数据、将数据存储到数据库
Spider Middleware：对请求和爬取项的再处理，修改、丢弃、新增请求或爬取项，用户可编写

Requess库和Scrapy爬虫的比较
相同点
两者都可以进行页面请求和爬取，python爬虫的两个重要技术路线
两者可用性好，文档丰富，入门简单
两者都没有处理js、提交表单、应对验证码等功能（可扩展）

不同点

requests	Scrapy
页面级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能较差	并发行好，性能较高
重点在于页面下载	重点在于爬虫结构
定制灵活	一般定制灵活，深度定制困难
上手十分简单	入门稍难

Scrapy爬虫的常用命令（cmd命令 scrapy -h可查看）

格式：scrapy [ options ] [ args]

startproject 创建一个新工程 scrapy startproject[dir]
settings 获得爬虫配置信息 scrapy settings[options]
list 列出工程中所有爬虫 scrapy list
crawl 运行一个爬虫 scrapy crawl
genspider 创建一个爬虫 scrapy genspider[options][domain]
shell 启动URL调试命令 scrapy shell[url]

ps：学习链接 https://www.icourse163.org/learn/BIT-1001870001?tid=1206951268#/learn/announce

I_HAVE_COME

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
北京理工大学-Python网络爬虫与信息提取学习笔记09

pip install Scrapy安装Scrapy不是一个函数功能库，而是一个爬虫框架爬虫框架是实现爬虫功能的一个软件结构和功能组件集合爬虫框架是一个半成品，能帮助用户实现专业网络爬虫有5个主要模块，SPIDERS、ENGINE、SCHEDULER、DOWNLOADER、ITEM PIPELINE其中用户需要编写配置的是SPIDERS和ITEM PIPELINES，剩下三个已有实现S...
复制链接

扫一扫