nutch搜索本地pdf文件

1.nutch把索引映射到solr,一定注意solrj的jar包版本一定要保持一致,不然会报版本不一致问题。

我在用nutch1.3时,将索引映射到solr1.4.1时,就报版本不一致的错了,将solr换成3.1就好了

用nutch1.2时,可以将索引映射到solr1.4.1,但不能映射到solr3.1

映射过去后在solr搜索界面查询,只看到标题,文件目录,没看到内容,而直接在nutch的搜索界面中搜索的话,是可以看到文件内容的。这个是因为nutch配置文件复制到solr中时,在schema.xml中content字段中的stored属性为false,把它改成true就可以在solr搜索时看到内容了

2.注意设置配置文件,不要爬到父目录以上

将配置文件nutch-default.xml中的file.crawl.parent属性改成false就可以了

3.注意url地址,一定以"/"结尾,刚开始一直找不到文件

其它设置见参考资料

 

参考资料:
1.http://wiki.apache.org/nutch/FAQ#How_do_I_index_my_local_file_system.3F
2.http://www.folge2.de/tp/search/1/crawling-the-local-filesystem-with-nutch
3.http://blog.csdn.net/whiteotiger/article/details/6336173
4.http://wiki.apache.org/nutch/RunningNutchAndSolr

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值