Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch使用方法简介: http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspx
nutch1.2 eclipse tomcat6.0 配置 :http://hi.baidu.com/oliverwinner/blog/item/4be3f1370284b32f5ab5f565.html
Nutch 实战:介绍了开源搜索引擎 Nutch 的基本信息,详细说明了在 Eclispe 下运行 Nutch 的步骤和需要注意的问题,还分析了部分源代码。很好的文章
Nutch 目录结构
bin:用于命令行运行的文件;
conf:Nutch的配置文件
lib:一些运行所需要的jar文件;
plugins:存放相应的插件;
src:Nutch的所有源文件;
webapps:web运行相关文件;
nutch-0.9.war是 Nutch所提供的基于Tomcat的应用程序包。
Nutch工作流程
1. 将起始 URL 集合注入到 Nutch 系统之中。
2. 生成片段文件,其中包含了将要抓取的 URL 地址。
3. 根据URL地址在互联网上抓取相应的内容。
4. 解析所抓取到的网页,并分析其中的文本和数据。
5. 根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取。
6. 同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中。
(1)准备需要的软件列表
Cygwin (下载地址:http://www.cygwin.com/setup.exe)
Jdk(1.4.2以上版本,下载地址http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u29-download-513648.html)
Nutch(推荐使用0.9版本,下载地址http://www.apache.org/dyn/closer.cgi/lucene/nutch/)
Tomcat(下载地址http://tomcat.apache.org/)
(2)安装软件
1) Cygwin 打开安装程序Cygwin.exe后,在"Choose Installation Type"页选择 "Install from Internet"(如果你已经把全部安装包下载到本地,就可以选择"Install from local directory"选项)。然后点击"Next".
然后选择安装目录,其他可保持默认选项,点击"Next".
选择保存安装包的本地目录,点击"Next".
选择下载连接的类型,点击Next。
然后通过服务器先下在需要安装的包列表,改为install比较合适,默认为default安装不全
完成安装。
图文讲解
2) 安装JDK ,注意安装完成后需要在Windows的环境变量中加入JAVA_HOME=你的jdk的安装目录
3) 安装Tomcat,下载安装版。
4)把Nutch解压到本地目录,例如D:/nutch。启动Cygwin程序,Cygwin程序会启动一个模拟Unix/Linux的终端窗口,然后使用方式就和Unix的Shell一样了,Cygwin的根目录是/cygdriver,这个目录相当于Windows的“我的电脑”,然后进入Nutch的目录,例如:cd /cygdriver/d/nutch,然后运行bin/nutch命令,如果出现下面的Usage 信息,这样Nutch就安装完成了,非常简单。
注意cygwin路径的切换方法:
命令:cd d:/nutch
(3)使用Nutch
Nutch 的爬虫有两种方式
• 爬行企业内部网(Intranet crawling)。针对少数网站进行,用 crawl 命令。
• 爬行整个互联网。 使用低层的 inject, generate, fetch 和 updatedb 命令,具有更强的可控制性。
1) 添加需要爬行的内部网地址信息。
新建一个目录,写入一些网址信息,例如我们需要爬行csdn的内部网