Scrapy的基本使用

不要说了

已于 2022-04-17 08:21:02 修改

阅读量415

点赞数 1

文章标签： python

于 2022-04-13 14:47:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63497523/article/details/124146675

版权

Scrapy的介绍

Scrapy包含了爬虫的所有的单元，并且提供了很多有用的中间插件，可以自由控制，便捷使用，Scrapy框架流行图如下：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5LiN6KaB6K-05LqG,size_19,color_FFFFFF,t_70,g_se,x_16

下面对最主要的组件进行介绍：

Scrapy Engine （引擎）：负责所有的组件数据传递。
Scheduler （调度器）：负责接收引擎发送的请求并排入队列，当引擎请求时，在传递给引擎。
Downloader （下载器）：接收引擎传递的请求并下载页面数据，然后将其获取到的响应传递给引擎，由引擎传递给spider进行处理。
Spider (爬虫) ：用户主要编写的爬虫文件就是此文件，负责爬取数据。
Item Pipeline (管道) : 负责处理从Spider中获取到的Item，进行过滤，存储等操作。

Scrapy项目的创建

第一步：Scrapy startproject 项目名

第二部：首先 cd 爬虫名（防止创建到其他目录中）

然后 Scrapy genspider 爬虫名域名

如果没报错就代表创建成功，可以在pychram中打开创建的目录会出现以下文件：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5LiN6KaB6K-05LqG,size_11,color_FFFFFF,t_70,g_se,x_16

出现以上文件就代表你已成功创建你的第一个Scrapy爬虫了。

spiders文件夹：就是你创建的爬虫，你所创建的爬虫都会保存在这个文件中。

items.py文件：决定爬取那些项目。是Scrapy中最简单的一项。

pipelines.py文件：决定爬取的内容如何处理。

settings.py文件：决定谁去处理爬取的内容。

如果各项文件都写好，可以通过以下命令运行爬虫（基于终端命令进行运行）：

Scrapy crawl 爬虫名

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
Scrapy的基本使用

Scrapy的介绍Scrapy包含了爬虫的所有的单元，并且提供了很多有用的中间插件，可以自由控制，便捷使用，Scrapy框架流行图如下：下面对最主要的组件进行介绍：Scrapy Engine （引擎）：负责所有的组件数据传递。 Scheduler （调度器）：负责接收引擎发送的请求并排入队列，当引擎请求时，在传递给引擎。 Downloader （下载器）：接收引擎传递的请求并下载页面数据，然后将其获取到的响应传递给引擎，由引擎传递给spider进行处理。 Spider (爬虫) ：用
复制链接

扫一扫

不要说了 CSDN认证博客专家 CSDN认证企业博客

码龄3年

8: 原创

106万+: 周排名

184万+: 总排名

8881: 访问

: 等级

104: 积分

10: 粉丝

7: 获赞

5: 评论

17: 收藏

私信

关注

热门文章

分类专栏

爬虫专区 3篇

最新评论

MongoDB的最新安装方法
CSDN-Ada助手: 非常感谢CSDN博主分享MongoDB的最新安装方法，这篇博客让我学到了很多。我觉得下一篇博客可以继续深入探讨MongoDB的应用场景和性能优化，这样的技术文章对其他用户也会非常有帮助。建议你可以写一篇关于“MongoDB在大数据应用中的应用与性能优化”的博客，相信会有更多读者受益。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
如何在windows系统中下载Scrapy框架
芒果水蜜桃love_you: cmd下载不了哈 C:\Users\30397>pip install wheel 'pip' 不是内部或外部命令，也不是可运行的程序或批处理文件。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不要说了 大哥阔气给大哥点点关注

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。