nutch1.2测试

上一篇介绍的是环境的搭建,这一篇继续上一篇的步骤,介绍一下对于环境搭建起来之后测试和使用问题。

1、查看生成的文件,如果命令执行成功的话,在你指定的dir_name中,你会发现5个文件夹,分别是:crawldb、linkdb、segments、indexs、index,各自作用为:

crawldb和linkdb:是为nutch抓取数据的爬虫使用的,包话创建和增加新数据

segments:包括抓取下来的数据文件,一般是看不清里边居的,经过nutch的处理

indexs:放的分索引

index:放的是各个indexs目录分索引的一个统一索引,也就是说用的时候是用index中的。

2、通过了第一步说明抓取和建立索引已经完成了,可以进行测试了,有两种方法,用命令行形行 nutch org.apache.nutch.crawl.Crawel key_words的形式或是用tomcat的网页形来看的,我们选择后者,比较直观些。

在window上安装tomcat是很简单的了,就不多说了,然后在nutch1.2的发布版中的根目录中可以发现nutch-1.2.war的war包,是一个nutch测试的demo案例,把拷贝至tomcat的webapp中,启动或重启tomcat就可以了,之后,进入解压后的nutch-1.2中的conf的nutch-site.xml中,添加两个属性,

<property>

     <name>http.agent.name</name><value>自定义随便的名字</value>

     <name>searcher.dir</name><value>nutch抓取网页后所生成的指定的那个目录(就是nutch命令中-dir dirName 的dirName)</value>

</property>

3、重启一下tomcat之后,在浏览器中输入相应的地址查看,http:Ip_address:port/nutch-1.2/就可以了,若能看到那个搜索界面你就成功大半了。输入相应的你搜索网页的关键字进行搜索,一般是可以相应结果的,若没有的话,可能是你的tomcat目录有点问题,就是nutch的一个bug吧,不允许有空格在tomcat的安装目录中,注意一下就好了。

4、对中文的支持,是tomcat的字符集问题,进入tomcat的安装目录中的conf下的server.xml,有个connector属性,其中有对应的端口等,在其中加个URIEncoding="UTF-8"就可以进行中文检索了。即

  <Connector port="80" protocol="HTTP/1.1" 

               connectionTimeout="20000" 

               redirectPort="8443"  URIEncoding="UTF-8" />

至此已经完了,如果出现了理想中的界面的话,就祝贺你了,当然问题是难免的,还有问题的话,可以留言进行交流。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
nutch javax.net.ssl.sslexception : could not generate dh keypair 是一个SSL异常,意味着Nutch无法生成DH密钥对。 TLS(Transport Layer Security)是一种加密协议,用于保护在网络上进行的通信。在TLS握手期间,服务器和客户端会协商加密算法和生成共享密钥对。 DH(Diffie-Hellman)密钥交换是TLS协议中常用的一种加密算法。它允许服务器和客户端在不直接传递密钥的情况下,通过交换公钥来生成共享密钥。 nutch javax.net.ssl.sslexception : could not generate dh keypair 错误意味着Nutch无法生成DH密钥对。这可能是由于以下几个原因导致的: 1. Java安全性策略限制:Java默认情况下,限制了密钥长度。您可以尝试通过修改Java安全性策略文件来解决此问题。 2. 加密算法不受支持:您使用的Java版本可能不支持所需的加密算法。您可以尝试升级到较新的Java版本。 3. 随机数生成器问题:DH密钥对需要使用随机数生成器生成随机数。但是,如果随机数生成器不可用或出现故障,就会出现此错误。您可以尝试重新配置随机数生成器或更换可靠的实现。 4. SSL证书问题:此错误可能是由于证书问题引起的。您可以检查证书是否过期或不匹配,并尝试更新或更换证书。 针对这个错误,您可以逐一排查上述情况,并尝试相应的解决方法来解决该问题。如果问题仍然存在,您可能需要进一步的调查和故障排除来确定准确的原因并解决问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值