Python相关实用技巧04：网络爬虫之Scrapy框架及案例分析

最新推荐文章于 2024-07-21 14:00:00 发布

Lynn Wen

最新推荐文章于 2024-07-21 14:00:00 发布

阅读量1.4k

点赞数 2

分类专栏： Python相关实用技巧文章标签： python 大数据数据挖掘

本文链接：https://blog.csdn.net/weixin_41961559/article/details/105358734

版权

本文详细介绍了Python的Scrapy爬虫框架，包括Scrapy的安装、框架结构、常用命令以及与requests库的比较。通过实例演示了创建Scrapy项目、生成爬虫、配置爬虫和运行爬虫的过程，并对比了Scrapy与requests库在爬虫开发中的适用场景。此外，文章还分享了一个股票数据爬虫案例，涵盖了数据抓取和存储的完整流程。

摘要由CSDN通过智能技术生成

1 Scrapy爬虫框架介绍

1.1 Scrapy简介与安装

Scrapy是一个快速且功能强大的的网络爬虫框架。

Python中实用的第三方库
重要的爬虫技术方法
Scrapy安装执行：pip install scrapy
安装后小测：执行scrapy -h

1.2 scrapy爬虫框架结构

爬虫框架：
- 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。
- 爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫。
“5+2”结构（分布式、数据流）：Spiders、Item Pipelines、Engine、Scheduler、Downloader。

1.3 爬虫框架解析

Engine:
- 控制所有模块之间的数据流
- 根据条件触发事件
- 不需要用户修改
Downloader：
- 根据请求下载网页
- 不需要用户修改
Scheduler:
- 对所有爬虫请求进行调度管理
- 不需要用户修改
Downloader Middleware：
- 目的：实施Engine、Scheduler和Downloader之间进行用户可配置的控制
- 功能：修改、丢弃、新增请求或响应
- 用户可以编写配置代码
Spider（框架入口）：
- 解析Downloader返回的响应（Response）
- 产生爬取项（scraped item）
- 产生额外的爬取请求（Request）
- 需要用户编写配置代码
Item Pipeline（框架出口）：
- 以流水线方式处理Spider产生的爬取项
- 由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型
- 可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库
- 需要用户编写配置代码
Spider Middleware
- 目的：对请求和爬取项的再处理
- 功能：修改、丢弃、新增请求或爬取项
- 用户可以编写配置代码