爬虫/搜索
talentluke
这个作者很懒,什么都没留下…
展开
-
开源爬虫Labin,Nutch,Neritrix介绍和对比
Larbin开发语言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是个基于C++的web爬虫工具,拥有易于操作的界面,不过只能跑在LINUX下,在一台普通PC下larbin每天可以爬5百万个页面(当然啦,需要拥有良好的网络) 简介 Larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立...原创 2014-06-22 02:03:28 · 124 阅读 · 0 评论 -
Google式的搜索引擎实现
Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。 Nutch 0.8 完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级。 1.Nutch 0.8 的安装与运行 nutch 0.7....原创 2014-06-22 23:31:30 · 421 阅读 · 0 评论