作业第二步——#1代码分析

最新推荐文章于 2023-06-13 20:52:58 发布

wbia2010lkl

最新推荐文章于 2023-06-13 20:52:58 发布

阅读量780

点赞数

分类专栏： Heritrix 文章标签：代码分析作业 processing web服务多线程服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wbia2010lkl/article/details/5957481

版权

Heritrix 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

首先看一下Heritrix的架构图：

1。

CrawlController（下载控制器）整个下载过程的总的控制者，整个抓取工作的起点，决定整个抓取任务的开始和结束。从Frontier获取 URI，传递给线程池（ToePool）中的ToeThread处理。

2。 Frointier(边界控制器) 主要确定下一个将被处理的URI，负责访问的均衡处理，避免对某一web服务器造成太大的压力。它保存着crawl的状态：

（1）发现的URI（URIs have been discovered）

（2）正在被处理的URI（URIs are being processed (fetched)）

（3）已经处理的URI（URIs have been processed） TeoThread(处理线程) Heritrix是多线程的，每一个URI被一个

ToeThread处理。

3。Processor(处理器) 下图为处理器的整个结构图

许多Processor组成一个处理链（processor chains）中,每一个处理链对URI进行一系列的处理。

(1)Pre-fetch processing chain(预处理链)

主要根据robot协议，DNS以及下载范围控制信息判断当前URI是否应当处理。

(2)Fetch processing chain（抓取处理链）

从远程服务器获取数据

(3) Extractor processing chain（抽取处理链）

从网页中抽取新的URI

(4)Write/index processing chain（写处理链）

负责把数据写入本地磁盘

(5)Post-processing chain（后置处理链）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
作业第二步——#1代码分析

<br />首先看一下Heritrix的架构图：<br /> <br /><br /> <br /> <br /> 1。<br /> CrawlController（下载控制器）整个下载过程的总的控制者，整个抓取工作的起点，决定整个抓取任务的开始和结束。从Frontier获取 URI，传递给线程池（ToePool）中的ToeThread处理。<br />2。 Frointier(边界控制器) 主要确定下一个将被处理的URI，负责访问的均衡处理，避免对某一web服务器造成太大的压力。它保存着craw
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。