Nutch 使用总结

 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

 Nutch使用方法简介: http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspx

nutch1.2 eclipse tomcat6.0 配置 :http://hi.baidu.com/oliverwinner/blog/item/4be3f1370284b32f5ab5f565.html

Nutch 实战:介绍了开源搜索引擎 Nutch 的基本信息,详细说明了在 Eclispe 下运行 Nutch 的步骤和需要注意的问题,还分析了部分源代码。很好的文章


Nutch 目录结构

bin:用于命令行运行的文件;

conf:Nutch的配置文件

lib:一些运行所需要的jar文件;

plugins:存放相应的插件;

src:Nutch的所有源文件;

webapps:web运行相关文件;

nutch-0.9.war是 Nutch所提供的基于Tomcat的应用程序包。

Nutch工作流程

1. 将起始 URL 集合注入到 Nutch 系统之中。

2. 生成片段文件,其中包含了将要抓取的 URL 地址。

3. 根据URL地址在互联网上抓取相应的内容。

4. 解析所抓取到的网页,并分析其中的文本和数据。

5. 根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取。

6. 同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中。

 

(1)准备需要的软件列表
        Cygwin     (下载地址:http://www.cygwin.com/setup.exe)
        Jdk(1.4.2以上版本,下载地址http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u29-download-513648.html)
        Nutch(推荐使用0.9版本,下载地址http://www.apache.org/dyn/closer.cgi/lucene/nutch/)
        Tomcat(下载地址http://tomcat.apache.org/)

(2)安装软件
     1)  Cygwin 打开安装程序Cygwin.exe后,在"Choose Installation Type"页选择 "Install from Internet"(如果你已经把全部安装包下载到本地,就可以选择"Install from local directory"选项)。然后点击"Next".
          然后选择安装目录,其他可保持默认选项,点击"Next".
          选择保存安装包的本地目录,点击"Next".
          选择下载连接的类型,点击Next。
          然后通过服务器先下在需要安装的包列表,改为install比较合适,默认为default安装不全
          完成安装。

          图文讲解
     2) 安装JDK ,注意安装完成后需要在Windows的环境变量中加入JAVA_HOME=你的jdk的安装目录
     3) 安装Tomcat,下载安装版。

     4)把Nutch解压到本地目录,例如D:/nutch。启动Cygwin程序,Cygwin程序会启动一个模拟Unix/Linux的终端窗口,然后使用方式就和Unix的Shell一样了,Cygwin的根目录是/cygdriver,这个目录相当于Windows的“我的电脑”,然后进入Nutch的目录,例如:cd /cygdriver/d/nutch,然后运行bin/nutch命令,如果出现下面的Usage 信息,这样Nutch就安装完成了,非常简单。

     注意cygwin路径的切换方法:

     命令:cd d:/nutch

(3)使用Nutch

Nutch  的爬虫有两种方式
•  爬行企业内部网(Intranet crawling)。针对少数网站进行,用 crawl 命令。  
•  爬行整个互联网。  使用低层的 inject, generate, fetch 和 updatedb 命令,具有更强的可控制性。 

      1) 添加需要爬行的内部网地址信息。
         新建一个目录,写入一些网址信息,例如我们需要爬行csdn的内部网

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值