![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
denghaomu
---有较强的学习能力,能在较短的时间内熟悉并掌握一门新的语言;
---有较强的解决问题的能力,善于钻研和解决新问题;
---有较强的团队合作精神,能很好的和团队成员一起开发软件,大学期间和同学合作共同完成了课程设计等几个小的项目;
---责任感比较强;
---具有很强毅力,喜欢挑战
展开
-
开始学习搜索引擎
今天花了半天的时间将lucene2.0+Heritrix的第一个简单的小例子看明白啦。。。。。虽然涉及到Lucene的一些用法还是稀里糊涂 :( ,但是毕竟迈出了第一歩,加油哈。。。。...原创 2009-06-20 17:51:16 · 105 阅读 · 0 评论 -
爬虫的几个关键技术点
最近在研究爬虫的实现,看了几个代码,感觉在爬虫的设计中有几点很重要:1)网页的获取2)网页中URL的提取3)URL的合法性校验4)URL是否已经存在5)网页的深度的判断6)爬去策略?深度优先和广度优先...2009-06-25 11:20:09 · 1433 阅读 · 0 评论 -
Heritrix的总体架构
爬虫hertrix中的关键的几个类是:1)CrawlOrder2)CrawlController3)Frontier链接制造工厂以及BdbFrontier的实现方式4)多线程的实现(ToeThread和ToePool)5)处理链和Processer...2009-06-27 11:10:05 · 106 阅读 · 0 评论