《Python网络爬虫从入门到实践第2版》第7章 Scrapy框架

最新推荐文章于 2022-07-11 07:38:00 发布

jxgy01

最新推荐文章于 2022-07-11 07:38:00 发布

阅读量137

点赞数

分类专栏： Python网络爬虫从入门到实践第2版

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jxgy01/article/details/118550972

版权

Python网络爬虫从入门到实践第2版专栏收录该内容

18 篇文章 4 订阅 ¥30.00 ¥99.00

订阅专栏

本文介绍了Python爬虫框架Scrapy的使用，包括Scrapy架构、数据流、安装过程，以及如何通过Scrapy抓取博客和财经新闻数据。Scrapy将爬虫的获取网页、解析网页、存储数据等步骤集成，简化了爬虫开发。通过实例，详细讲解了Scrapy创建项目、获取网页、提取数据和存储数据的步骤，同时对比了Scrapy与Requests+bs4的选择。

摘要由CSDN通过智能技术生成

第7章　Scrapy框架

前面几章介绍了使用requests加BeatifulSoup工具来获取网页、解析网页、存储数据，上手比较简单，但是每个功能的代码都要自己实现。本章介绍的Scrapy是一个爬虫框架，它将上述的很多功能都封装进框架里。使用较少的代码就能完成爬虫的工作。

本章首先介绍Scrapy和Requests的对比，然后介绍如何安装Scrapy，如何使用Scrapy进行抓取，Scrapy的注意事项，最后通过Scrapy爬虫实践来实现真正上手。

目录

第7章　Scrapy框架

7.1　Scrapy是什么

7.1.1　Scrapy架构

7.1.2　Scrapy数据流（Data Flow）

7.1.3　选择Scrapy还是Requests+bs4

7.2　安装Scrapy

7.3　通过Scrapy抓取博客

7.3.1　创建一个Scrapy项目

7.3.2　获取博客网页并保存

7.3.3　提取博客标题和链接数据

7.3.4　存储博客标题和链接数据

7.3.5　获取文章内容

7.3.6　Scrapy的设置文件

7.4　Scrapy爬虫实践：财经新闻数据

7.4.1　网站分析

7.4.2　项目实践

7.4.3　自我实践题

7.1　Scrapy是什么

Scrapy是一个为了爬取网站数据，提取数据而编写的应用框架。简单来说，它把爬虫的三步：获取网页，解析网页，存储数据都整合成了这个爬虫框架。这样，通过Scrapy实现一个爬虫变得简单了很多。

7.1.1　Scrapy架构

下面的图7-1展示了Scrapy的架构，包括了各个组件，以及数据流的情况（箭头所示）。

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。