搜索与web爬虫
binziwell
这个作者很懒,什么都没留下…
展开
-
nutch 1.0在Windows下的安装
<br />1. nutch简介<br />1.1什么是nutch<br />Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。<br />1.2研究nutch的原因<br />可能有的朋友会有疑问,我们有google,有百度,为何还需要建立自己的搜索引擎呢?这里我列出3点原因:<br />(1) 透明度:nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。<br />(2) 对搜索引擎的理解:我们并没有google的源代码,因此学习搜索引原创 2010-09-16 13:43:00 · 1081 阅读 · 1 评论 -
Heritrix在Windows下的运行和简单任务设置
<br />1 安装<br /> 1.1 首要条件<br /> 使用Windows XP / 2003 均可。必须有JAVA环境,请自行安装J2SE jre/jdk。我使用的版本是JAVA SE 1.6.0_02。<br /> 1.2 下载Heritrix<br /> Heritrix的主页:http://crawler.archive.org/<br /> 下载页面:http://crawler.archive.org/downlo原创 2010-09-08 10:27:00 · 562 阅读 · 0 评论