Pyspider的基本使用

最新推荐文章于 2020-10-30 21:07:52 发布

weixin_30872733

最新推荐文章于 2020-10-30 21:07:52 发布

阅读量122

点赞数

文章标签： python 数据库

原文链接：http://www.cnblogs.com/ivy-blogs/p/10873376.html

版权

Pyspider的基本使用

pyspider的任务流程：

每个pyspider的项目对应一个Python的脚本，该脚本中定义了一个Handler类，它有一个on_start方法。爬取首先调用on_start方法生成的最初的抓取任务，然后发送给Scheduler进行调度。
Scheduler将抓取任务分发给Fetcher进行抓取，Fetcher执行并得到响应，随后将响应发送给Processer。
Processer处理响应并提取新的url生成新的抓取任务，然后通过消息队列的方式通知Scheduler当前抓取任务执行情况，并将新生成的抓取任务发送给Scheduler。如果生成了新的提取结果，则将其发送到消息队列等待result worker处理。
Scheduler接收到新的抓取任务，然后查询数据库，判断其如果是新的任务或者是需要重试的任务就继续进行调度，然后将其发送回Fetcher进行抓取。
不但重复以上工作，知道所有的任务都执行完毕，抓取结束。
抓取结束后，程序后回调on_finish方法，可以定义后处理过程。

转载于:https://www.cnblogs.com/ivy-blogs/p/10873376.html

weixin_30872733

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pyspider的基本使用

Pyspider的基本使用pyspider的任务流程：每个pyspider的项目对应一个Python的脚本，该脚本中定义了一个Handler类，它有一个on_start方法。爬取首先调用on_start方法生成的最初的抓取任务，然后发送给Scheduler进行调度。Scheduler将抓取任务分发给Fetcher进行抓取，Fetcher执行并得到响应，随后将响应发送给Pr...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。