Scrapy（官网 http://scrapy.org/）爬虫（一）

最新推荐文章于 2024-02-03 10:54:16 发布

云梦软件

最新推荐文章于 2024-02-03 10:54:16 发布

阅读量5.5k

点赞数 2

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fxh1989/article/details/81428093

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Scrapy（官网 http://scrapy.org/）是一款功能强大的，用户可定制的网络爬虫软件包。其官方描述称："

Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing

"

Scrapy在github中有源码托管https://github.com/scrapy/scrapy，其安装可以参考github中提供的安装方法（大百度中也提供了很多安装方法的描述）。另外网站1和网站2提供了scrapy的使用方法和简单实例（小编后续随笔也会简单写一个scrapy实例，供大家参考）。

Scrapy的爬虫原理：

　　　　　　　　　　　　”盗用“的scrapy 官网中的scrapy核心框架图

　　Scrapy Engine是scrapy软件的核心，他负责各个组件的协调处理

　　Scheduler是调度器，负责爬去队列的管理，如Request的入队和出队管理

　　Item Pipeline 是抓取内容的核心组件，用户想要获取的内容可以写入item 然后再pipeline中设计数据的流向比如写入文件或是持久化到数据库中

　　Downloader 则是scrapy与web site接触的端口，负责根据Request 请求网页然后以response的形式返回用户处理接口（默认是 spider的parse函数）

　　Spider则是用户定制兴趣内容的模块，在scrapy的spiders中内置了BaseSpider，CSVFeedSpider，CrawlerSpider，用户可以根据情况选择合适spider继承与开发

　　Spider Middlewares则是Spider与Scrapy Engine 的中间层，用户可以个性化定义Spider向Engine传输过程

Scrpay的运行过程：

（1）Engine从Spider中获取一个需要爬取的URL（从spider中start_url获取），并以Request的形式在Scheduler中列队。

（2）Scheduler根据列队情况，把Request发送给Downloader，Downloader根据Request请求网页，并获取网页内容。

（3）网页内容以Response的形式经过Engine发送给Spider，并根据用户解析生成Item，发送给Pipeline。

（4）Pipeline根据获得的item和settings中的设置，处理item（process_item）把数据输出到文件或是数据库中。

上述过程反复进行，直到没有新的请求为止（此过程是一个异步处理过程）。

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Scrapy（官网 http://scrapy.org/）爬虫（一）

Scrapy（官网 http://scrapy.org/）是一款功能强大的，用户可定制的网络爬虫软件包。其官方描述称："Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their page...
复制链接

扫一扫

专栏目录

云梦软件 CSDN认证博客专家 CSDN认证企业博客

码龄14年

33: 原创

14万+: 周排名

8万+: 总排名

3万+: 访问

: 等级

599: 积分

64: 粉丝

80: 获赞

12: 评论

141: 收藏

私信

关注

热门文章

分类专栏

C/C++
C# 3篇
Go 20篇
K8S 1篇
区块链
算法 4篇
python 3篇
Linux 1篇

最新评论

k8s常用操作命令
简单简单小白: 大佬非常清晰的分析思路给我带来了很多收获，希望大佬持续创造，我们共同学习
k8s常用操作命令
CSDN-Ada助手: 如何在 Linux 上设置和管理 Webmin 系统管理工具？
头条golang面试题
CSDN-Ada助手: 非常感谢CSDN博主分享的《头条golang面试题》博文，对于Golang技术爱好者来说，这篇文章肯定是非常有价值的。我认为，下一篇博客可以围绕Golang在微服务架构中的应用场景展开，比如如何使用Golang构建高性能的微服务，如何使用Golang实现分布式缓存等等。这样的技术文章对其他用户也非常有帮助，期待你的下一篇作品。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
python爬虫实战（一）做个图片自动下载器
得见: 经常会出现Traceback (most recent call last)，怎么弄
基于C#、bootstap、三层架构培训机构教务管理系统
云梦软件回复 ly999943: 可以

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。