搜索引擎
文章平均质量分 75
KnightWoOoO
这个作者很懒,什么都没留下…
展开
-
Heritrix之旅之ToeThread
原文链接:http://www.cnblogs.com/MichaelYin/archive/2011/10/07/2200412.htmlHeritrix是一个多线程的程序,里面使用工作线程来处理url,这些工作线程称为torThreads,这些toethread统一的被ToePool所管理,Toepool通过setSize方法来管理运行的toethread数目view sour转载 2011-11-22 21:56:16 · 561 阅读 · 0 评论 -
Heritrix之旅之Processor
原文链接:http://www.cnblogs.com/MichaelYin/archive/2011/10/10/2205699.html实际的url的处理是在toethread中进行的,toethread从Frontier中请求待处理的url,并将其放到一系列Processor中进行处理可以以流水线上的处理流程来想象Processor,流水线上的产品就是url,由于处理的process转载 2011-11-22 21:57:57 · 379 阅读 · 0 评论 -
在Myeclise中配置heritrix1.14.4
heritrix环境配置着实令人头疼,网上好多关于heritrix配置的说明,但,远看越迷茫。忙了好多时间终于解决了,现详细介绍一下。准备工作1、下载Heritrix-1.14.4.zip和Heritrix-1.14.4_src.zip两个包。分别解压,两个解压后的如下图:a.解压后的heitrix1.14.4.zip b.解压后的heritrix1.14.4_sr原创 2011-11-22 21:49:05 · 490 阅读 · 0 评论 -
[转]Heritrix之旅之CrawlController
文章来源http://www.cnblogs.com/MichaelYin/archive/2011/08/25/2153633.html一转眼暑假就快要结束了,暑假也是在趁着找工作之前花时间折研究了一下Heritrix,这段时间会花点时间把这块学习和心得来做一个总结,一方面对知识的夯实,另一方面也能对园子里面的朋友有所帮助。Heritrix的一些介绍网上都有,我在这里也就不做介绍了,转载 2011-11-22 21:47:35 · 338 阅读 · 0 评论