爬虫初步六

最新推荐文章于 2022-07-29 21:17:01 发布

码手西风

最新推荐文章于 2022-07-29 21:17:01 发布

阅读量287

点赞数

分类专栏：网络爬虫初级

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Tommy1295/article/details/80708364

版权

网络爬虫初级专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Scrapy库的使用

1. 什么是scrapy框架？

它是一个用的最多的一个爬虫框架，相当于一个爬虫模版，是爬虫代码的半成品。主要针对网站级的爬虫规模。具有可编写，可扩展的功能。

2. 框架的具体结构图

整个过程是这样的：spiders获取初始的url(程序员指定某个网站),产生requests。通过引擎放在scheduler上面。scheduler发现仅有一个url便立马通过引擎去downloader下载网页，downloader返回response通过引擎给spiders分析，是items就给item pipeline，是requests就在放到schedule上面。

注意：这里面一般spider与item pipeline可以修改。

通过上面的过程，整个网站的所有网页资源都可以获取。

3. requests库与scrapy库的比较

requests一般针对单个网页信息的提取

scrapy针对网站信息提取

但是request是个功能函数scrapy是个框架，灵活度肯定是requests的高，也就是可定制深度高。

4. scrapy命令

在命令行（cmd）中输入：

5.实例：

要求：爬取网页：http://python123.io/ws/demo.html

文件名称：demo.html

①建立工程

这里注意：你想在哪个文件夹里建立工程，你就在哪个文件夹里打开shell。输入命令，就可以在这个文件夹下建立工程。

这里在E盘建立命令得到：

②产生爬虫

在当前文件夹里打开shell输入命令：

在文件夹里就会产生一个：demo爬虫文件：

这个demo.py就是一个类文件:

③配置spider

在属性里面把名字，起始的网站赋值。

在parse函数里把数据流传来的的response的网页内容写在一个文件夹里。以备后续使用。

总的来说，整个过程就是：

这里在对这就个关键的爬虫数据类做出说明：

另外。spider提供了很多的解析方法：

如：BeautifulSoup，xml,CSS等;

这里介绍一下CSS的解析方法：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫初步六

Scrapy库的使用1. 什么是scrapy框架？它是一个用的最多的一个爬虫框架，相当于一个爬虫模版，是爬虫代码的半成品。主要针对网站级的爬虫规模。具有可编写，可扩展的功能。2. 框架的具体结构图整个过程是这样的：spiders获取初始的url(程序员指定某个网站),产生requests。通过引擎放在scheduler上面。scheduler发现仅有一个url便立马通过引擎去downloader下...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。