pyspider源码简析

最新推荐文章于 2024-04-27 08:44:56 发布

conghui_

最新推荐文章于 2024-04-27 08:44:56 发布

阅读量1.4k

点赞数

文章标签： python pyspider 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16077957/article/details/80076228

版权

pyspider优势所在

pyspider非常适合那种很小很杂的爬虫的管理，比如有100个小网站，规则又各不相同，我要获取他的一些很简单的内容，如标题，所有的图片，正文内容。他分为几个模块：scheduler，fetcher，processor，resultworker以及一个ui，前三者各自分离，用消息队列连接，因此很容易做成分布式（或者说设计之初就是为了分布式的）。

scheduler

了解scheduler之前，先了解两个概念，一个是project，代表着一个项目，如百度爬虫项目；一个是task，代表一个爬取任务，如爬取百度首页，爬取某一个新闻业，都是一个task。

与scheduler相关的队列有三个

scheduler2fetcher 也就是scheduler中的out queue，用于发送task给fetcher
status_queue 用于从processor中获取已经爬取的task的状态并做相应处理
newtask_queue 新产生的task

scheduler负责调度，与scrapy或者其他的爬虫框架类似，调度器负责调度需要爬取的内容，决定哪些内容在哪些时候进行爬取。我们从代码入手看下pyspider的调度器做了啥。

def run<

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pyspider源码简析

pyspider优势所在pyspider非常适合那种很小很杂的爬虫的管理，比如有100个小网站，规则又各不相同，我要获取他的一些很简单的内容，如标题，所有的图片，正文内容。他分为几个模块：scheduler，fetcher，processor，resultworker以及一个ui，前三者各自分离，用消息队列连接，因此很容易做成分布式（或者说设计之初就是为了分布式的）。scheduler...
复制链接

扫一扫

conghui_ CSDN认证博客专家 CSDN认证企业博客

码龄10年

13: 原创

112万+: 周排名

148万+: 总排名

3万+: 访问

: 等级

531: 积分

5: 粉丝

4: 获赞

1: 评论

20: 收藏

私信

关注

最新评论

phash计算png图片指纹返回总为0
真月的森林97: 源码里就是这样的呀 [code=cpp] CImg<float> meanfilter(7, 7, 1, 1, 1); CImg<float> img; if (src.spectrum() == 3) { img = src.RGBtoYCbCr().channel(0).get_convolve(meanfilter); } else if (src.spectrum() == 4) { int width = src.width(); int height = src.height(); img = src.crop(0, 0, 0, 0, width - 1, height - 1, 0, 2) .RGBtoYCbCr() .channel(0) .get_convolve(meanfilter); } else { img = src.channel(0).get_convolve(meanfilter); } [/code]

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。