Nutch 安装使用笔记

这几天有朋友让我一起看一些关于搜索引擎的技术,说实话我的专业还是信息搜集那,可惜在学校老师教的都是一些古老的信息整理方法,早就已经过时,不过我对信息搜集整理还是很感兴趣的。
说正题吧,介绍一下这次需要试用的搜索应用:Nutch

在网上了解到一些关于搜索引擎的知识,好像现在比较热门的就是Lucene,Nutch了,而且Nutch的主要开发人员Doug Cutting还是开发Lucene的。而且别的几种搜索技术还都不是全面的搜索应用。我就选择了Nutch来作测试了。而且全都是开发好的只要用就可以了。哈哈!

说正题吧,先给出我的参考文章:
http://www.dbanotes.net/web/nutch.html
Nutch 初体验

http://dev.4kiki.net/content/article/112.html
Nutch 于 winxp

安装步骤:

1,安装JDK,我看到网上nutch支持的是jdk1.4,不过我安装得是,jdk1.5,为了安装tomcat5.5
       我的安装路径:C:/Sun/java
2,安装cygwin,方法网上很多,我推荐安装本地安装版
       我的安装路径: D:/cygwin/
3,安装tomcat,nutch的说明支持tomcat 4.3,我安装的是tomcat5.5
       我的安装路径:D:/Program Files/Tomcat 5.5
4,安装nutch-0.7.1.zip
       将下载的压缩包解压缩到:D:/cygwin/home/nutch
      

配置步骤:

1,配置cygwin中的环境
        D:/cygwin/etc/profile
       
        PATH="/usr/local/bin:/usr/bin:/bin:$PATH:/cygdrive/c/Sun/java/jdk1.5.0_06"
        export NUTCH_JAVA_HOME=/cygdrive/c/Sun/java/jdk1.5.0_06
        export JAVA_HOME=/cygdrive/c/Sun/java/jdk1.5.0_06     

2,配置 nutch
       D:/cygwin/home/nutch/conf/crawl-urlfilter.txt

       # accept hosts in MY.DOMAIN.NAME
        +^http://([a-z0-9]*/.)*sina.com.cn/

        将上面的sian.com.cn改为你需要搜索的域名
       
        在D:/cygwin/home/nutch中建立目录URLS,目录中建立文件URLS-20060212
       文件内容:http://www.sina.com.cn

Nutch 的爬虫有两种方式

  • 爬行企业内部网(Intranet crawling)。针对少数网站进行。用 crawl 命令。
  • 爬行整个互联网。 使用低层的 inject, generate, fetchupdatedb 命令。具有更强的可控制性。

       现在可以开始抓网页了
       用cygwin进入/home/nutch目录,
       ./bin/nutch crawl ./URLS/URLS-20060212 -dir sina.com.cn -depth 2 -threads 4
       depth 参数指爬行的深度,这里处于测试的目的,选择深度为 2 ;
        threads 参数指定并发的进程 这是设定为 4 ;

3,配置tomcat

       将D:/Program Files/Tomcat 5.5/webapps/ROOT目录下文件全部删除
       将D:/cygwin/home/nutch中nutch-0.7.1.war解压缩到ROOT目录中
       (可以直接使用winrar解压缩,或者用命令jar xvf nutch-0.7.1.war)

       配置文件:D:/Program Files/Tomcat 5.5/webapps/ROOT/WEB-INF/classes/nutch-site.xml
<nutch-conf>
    <property>
        <name>searcher.dir</name>
        <value>D:/cygwin/home/nutch/sina.com.cn</value>
    </property>
</nutch-conf>

       重启tomcat服务器

       IE中输入http://localhost:8080
      
       你就可以看到自己的搜索引擎了,哈哈!

       不过很可惜的是我的中文搜索不可以,不知道该怎么配置。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
nutch javax.net.ssl.sslexception : could not generate dh keypair 是一个SSL异常,意味着Nutch无法生成DH密钥对。 TLS(Transport Layer Security)是一种加密协议,用于保护在网络上进行的通信。在TLS握手期间,服务器和客户端会协商加密算法和生成共享密钥对。 DH(Diffie-Hellman)密钥交换是TLS协议中常用的一种加密算法。它允许服务器和客户端在不直接传递密钥的情况下,通过交换公钥来生成共享密钥。 nutch javax.net.ssl.sslexception : could not generate dh keypair 错误意味着Nutch无法生成DH密钥对。这可能是由于以下几个原因导致的: 1. Java安全性策略限制:Java默认情况下,限制了密钥长度。您可以尝试通过修改Java安全性策略文件来解决此问题。 2. 加密算法不受支持:您使用Java版本可能不支持所需的加密算法。您可以尝试升级到较新的Java版本。 3. 随机数生成器问题:DH密钥对需要使用随机数生成器生成随机数。但是,如果随机数生成器不可用或出现故障,就会出现此错误。您可以尝试重新配置随机数生成器或更换可靠的实现。 4. SSL证书问题:此错误可能是由于证书问题引起的。您可以检查证书是否过期或不匹配,并尝试更新或更换证书。 针对这个错误,您可以逐一排查上述情况,并尝试相应的解决方法来解决该问题。如果问题仍然存在,您可能需要进一步的调查和故障排除来确定准确的原因并解决问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值