搜索引擎
文章平均质量分 72
historyasamirror
爱机器,爱学习。
三年的NLP经验,期间涉及Machine Learning,Data Mining,骨子里由衷的喜欢;
正在做分布式,感觉自己很幸运,这个领域一定大有可为;
关注User Study,学会从用户的角度看技术;
展开
-
爬虫工具Heritrix初体验
需要找一个工具去爬取某个网站,简单调研后剩下了两个候选:Heritrix和Nutch。最后听说Heritrix可定制的地方比较多,更加灵活。恰好这是我需要的。遂决定采用Heritrix,初步尝试后发现效果不错。具体的好处在于:配置简单,有良好的web界面,不需要写一行代码。安装我原创 2011-07-13 23:37:03 · 12504 阅读 · 1 评论 -
不简单的URL去重
发现我有好几篇blog的前缀都是用的“不简单”,它大概描述了这样一个状态:一个看起来很简单的任务在实践之后,发现其实很不容易。很多事情都是这样,如果不是亲自去做,如果不是仔细钻研,那就只能处于雾里看花的状态。这让我想到另一个故事,在我毕业的那年曾经被某公司的CTO面试,他和我原创 2011-09-03 23:00:51 · 20514 阅读 · 12 评论 -
Heritrix控制抓取速度
Heritrix通过三个参数来控制爬虫抓取的速度,位于每个Job的setting处,如图:delay-factor是一个因子,表示两次抓取之间的delay应该是上一次抓取的延迟 * delay-factor:举例来说,如果将delay-factor设置为4,前一次抓取原创 2011-08-21 12:13:05 · 7048 阅读 · 0 评论 -
Heritrix架构简述
本文的目的,其实是希望通过对heritrix架构的分析,了解如何实现一个网络爬虫。Heritrix的架构如图:Web Administrative Console: 就是一个基于web的控制台。Heritrix内嵌了Jetty就是为了做这事。CrawlOr原创 2011-08-21 13:15:54 · 7641 阅读 · 0 评论 -
基于Heritrix的增量抓取
虽然打着Heritrix的名头,但本文更多的还是谈谈增量抓取的基本思想,Heritrix只是正好被用来做为例子。如果你不是随便写个爬虫抓着玩,那么一定会碰到一个问题,就是增量抓取。不管是百度,google这样的广泛搜索引擎,还是现在很火的垂直搜索,增量抓取一定都是做爬原创 2011-08-21 15:10:03 · 10281 阅读 · 0 评论 -
简述网络爬虫的系统实现
网络爬虫常常被人所忽略,特别是和搜索引擎的光环相比,它似乎有些暗淡无光。我很少看见有详细介绍爬虫实现的文章或者文档。然而,爬虫其实是非常重要的一个系统,特别是在今天这个数据为王的时代。如果你是一个刚刚开始的公司或者项目,没有任何原始的数据积累,那么通过爬虫去Internet上找到那些有价值的数据再进行数据的清洗和整理,是一个可以快速得到数据的重要手段。本文侧重于爬虫的系统设计和实现的部分细节,原创 2011-12-11 13:48:11 · 22654 阅读 · 7 评论