java爬虫框架 httpclient_Java爬虫框架简介

最新推荐文章于 2024-05-14 19:21:39 发布

生活报

最新推荐文章于 2024-05-14 19:21:39 发布

阅读量734

点赞数

文章标签： java爬虫框架 httpclient

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32771227/article/details/114252527

版权

爬虫

1. 流程

1) Scheduler启动爬虫器，TaskMaster初始化taskQueue

2) Workers从TaskQueue中获取任务

3) Worker线程调用Fetcher爬取Task中描述的网页

4) Worker线程将爬取到的网页交给Parser解析

5) Parser解析出来的数据送交Handler处理，抽取网页Link和处理网页内容

6) VisitedTableManager判断从URLExtractor抽取出来的链接是否已经被爬取过，如果没有提交到TaskQueue中

2. Scheduler

Scheduler负责启动爬虫器，调用TaskMaster初始化TaskQueue，同时创建一个monitor线程，负责控制程序的退出。

何时退出？

当TaskQueue为空，并且Workers中的所有线程都处于空闲状态。而这种形势在指定10分钟内没有发生任何变化。就认为所有网页已经全部爬完。程序退出。

3. Task Master

任务管理器，负责管理任务队列。任务管理器抽象了任务队列的实现。

l 在简单应用中，我们可以使用内存的任务管理器

l 在分布式平台，有多个爬虫机器的情况下我们需要集中的任务队列

在现阶段，我们用SQLLite作为任务队列的实现。可供替代的还有Redis。

任务管理器的处理流程：

l 任务管理器初始化任务队列，任务队列的初始化根据不同的配置可能不同。增量式的情况下，根据指定的URL L

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java爬虫框架 httpclient_Java爬虫框架简介

爬虫1. 流程1) Scheduler启动爬虫器，TaskMaster初始化taskQueue2) Workers从TaskQueue中获取任务3) Worker线程调用Fetcher爬取Task中描述的网页4) Worker线程将爬取到的网页交给Parser解析5) Parser解析出来的数据送交Handler处理，抽取网页L...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。