crawler-architecture
文章平均质量分 83
lvvista
既然选择了自己喜欢的职业,就不要抱怨通往成功的旅途上有太多的荆棘,因为,只有用荆棘编织而成的花环才能永葆光芒和鲜活的生命气息.
展开
-
crawler4j源码分析(三)Fetcher
对于爬虫来讲,Fetcher的主要工作就是获取给定URL对应的资源,然后交给Parser处理,通常情形下,Fetcher和Parser之间通过page buffer来衔接,从而将二者之间的耦合度降到最低,不过在crawler4j中,由于每个爬取线程都有自己的parser,而所有的parser都对应一个全局的fetcher,并且fetcher的页面获取函数设计成了可重入的模式,因此也不会存在pars原创 2014-07-10 14:19:27 · 1408 阅读 · 0 评论 -
crawler4j源码分析(一)CrawlController和WebCrawler
crawler4j是google的原创 2014-07-09 09:58:23 · 4113 阅读 · 1 评论 -
crawler4j源码分析(二)Frontier
这节我们来看看crawler4j中的URL管理机制--Frontier的设计和实现原创 2014-07-09 14:11:44 · 1860 阅读 · 0 评论 -
Spiderman源码分析(五)Parser
这节我们来看看真正负原创 2014-08-02 19:43:02 · 2195 阅读 · 0 评论 -
crawler4j源码分析(四)Parser
本节来分析crawler4j的parser,由于crawler4j本身也是原创 2014-07-11 11:15:06 · 1539 阅读 · 0 评论 -
Spiderman源码分析(二)调度和执行
这节我们来看看Spiderman原创 2014-07-30 16:54:41 · 2113 阅读 · 0 评论 -
Spiderman源码分析(三)Fetcher
这节我们来看看原创 2014-08-01 10:06:41 · 1233 阅读 · 0 评论