Gecco学习笔记（七）

最新推荐文章于 2024-08-22 08:48:27 发布

软工7班姜彪

最新推荐文章于 2024-08-22 08:48:27 发布

阅读量179

点赞数

文章标签： java 开发语言后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/j000818/article/details/121755038

版权

本文介绍了Gecco爬虫框架的线程和队列模型。该框架采用两级队列，包括初始请求队列（循环或非循环）和派生请求队列。线程按FIFO原则从初始队列获取请求，多余线程等待新请求。循环模式下，线程会将初始请求重新入队。多线程用于初始队列，每个线程有独立的派生队列。Gecco的模型类似浏览器Tab，易于理解和实现高效爬取。动态获取初始请求队列可通过爬虫引擎抓取并保存，然后启动多线程爬取。

摘要由CSDN通过智能技术生成

2021SC@SDUSC

简述一下Gecco爬虫框架线程和队列模型

gecco的队列模型是两级队列模型。分为初始请求队列和派生请求队列。初始请求队列在循环模式下是一个阻塞式的FIFO队列，在非循环模式下是一个非阻塞式的FIFO队列。派生队列是一个非阻塞的剔重的FIFO队列；
线程首先去初始请求队列按照FIFO原则获取一个请求，如果线程数量大于初始请求队列的数量，多余的线程就会待定新的初始请求入队，因此建议线程数量不要大于初始请求队列的数量；
对于循环模式loop(true)，线程在抓取完成后，会将初始请求重新放入队列；
多线程只对初始请求队列有效，每个线程会有自己的派生请求队列，因此派生请求队列是在单线程下运行的，爬虫将派生请求放入队列继续抓取，直到没有派生请求；
线程在抓取完成派生请求后，会继续向初始请求队列获取初始请求

##为什么要用这种模型呢

Gecco的线程模型很像浏览器，每一个线程对应一个浏览器的Tab。每个浏览器的Tab一次只能看一个页面，因此就有了初始请求队列多线程，派生请求队列单线程的模型。
使用这种队列和线程模型开发人员很好理解，结构简单易懂，效率也能保证。想用多线程提高效率就想办法放入初始请求队列。

##如何动态的获取初始请求队列如果想通过多线程提高爬虫的效率就需要想办法将请求放入初始请求队列。我们可以先通过一个爬虫引擎将待抓取的请求保存起来。另外一个爬虫引擎以第一个爬虫引擎获取的请求作为初始请求开启多线程运行。简单说就是初始请求也是可以抓取出来的，并不一定非要写死。下面是jd采用多线程抓取的一段代码

//先获取分类列表，放入AllSortPipeline.sortRequests
	HttpGe

最低0.47元/天解锁文章

软工7班姜彪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。