《Python网络爬虫从入门到实践 第2版》第7章 Scrapy框架

本文介绍了Python爬虫框架Scrapy的使用,包括Scrapy架构、数据流、安装过程,以及如何通过Scrapy抓取博客和财经新闻数据。Scrapy将爬虫的获取网页、解析网页、存储数据等步骤集成,简化了爬虫开发。通过实例,详细讲解了Scrapy创建项目、获取网页、提取数据和存储数据的步骤,同时对比了Scrapy与Requests+bs4的选择。
摘要由CSDN通过智能技术生成

第7章 Scrapy框架

前面几章介绍了使用requests加BeatifulSoup工具来获取网页、解析网页、存储数据,上手比较简单,但是每个功能的代码都要自己实现。本章介绍的Scrapy是一个爬虫框架,它将上述的很多功能都封装进框架里。使用较少的代码就能完成爬虫的工作。

本章首先介绍Scrapy和Requests的对比,然后介绍如何安装Scrapy,如何使用Scrapy进行抓取,Scrapy的注意事项,最后通过Scrapy爬虫实践来实现真正上手。

目录

第7章 Scrapy框架

7.1 Scrapy是什么

7.1.1 Scrapy架构

7.1.2 Scrapy数据流(Data Flow)

7.1.3 选择Scrapy还是Requests+bs4

7.2 安装Scrapy

7.3 通过Scrapy抓取博客

7.3.1 创建一个Scrapy项目

7.3.2 获取博客网页并保存

7.3.3 提取博客标题和链接数据

7.3.4 存储博客标题和链接数据

7.3.5 获取文章内容

7.3.6 Scrapy的设置文件

7.4 Scrapy爬虫实践:财经新闻数据

7.4.1 网站分析

7.4.2 项目实践

7.4.3 自我实践题

7.1 Scrapy是什么

Scrapy是一个为了爬取网站数据,提取数据而编写的应用框架。简单来说,它把爬虫的三步:获取网页,解析网页,存储数据都整合成了这个爬虫框架。这样,通过Scrapy实现一个爬虫变得简单了很多。

7.1.1 Scrapy架构

下面的图7-1展示了Scrapy的架构,包括了各个组件,以及数据流的情况(箭头所示)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值