本文档记录对照nutch官方wiki跑nutch和solr的时候的一些问题
按照官方文档执行命令的时候,nutch会报错 bin/nutch solrindex报java.io.IOException: Job failed!
同时solr 的log会报错,说找不到field 啥啥啥的,
需要照着nutch-1.7/conf路径下的schema.xml①文件
把solr-4.5.1/example/solr/collection1/conf/schema.xml②文件里没有的field 补充到②中
然后启动,job就会执行成功
初学者最好注意几点:
nutch需要运行在linux上,
nutch和solr部署在同一个机器上, 以免出现网络不通,linux服务器防火墙限制,ip不在一个网段的限制等引发的问题
copy field的时候,不能粗暴的覆盖文件,不能粗暴的copy所有field,solr可能会报field重复的错误