在改造solr的过程中,发现代码越写越驱近于nutc
<wbr></wbr>
h。。。。。再次打开nutch的代码进行研读,发现n<wbr></wbr>
utch对于hadoop的支持更为自然(但nutch<wbr></wbr>
不支持最新的hadoop0.14版本,只支持到had<wbr></wbr>
oop-0.12版本,如果强行升级会因为hadoop<wbr></wbr>
0.14去除了一些方法而失败)。目前想到的方案,用n<wbr></wbr>
utch来完成索引的建立和文件的保存,用solr进行<wbr></wbr>
查询,将结果暴露为json格式。
需要做的工作:
1.开发nutch的录入分析程序,还可以利用到map<wbr></wbr> /reduce
2.将solr的查询部分改为从hdfs搜索,之前以完<wbr></wbr> 成
虽然走了一些弯路,在solr上花费了不少时间,不过总<wbr></wbr> 算弄清了lucene,solr,hadoop,nut<wbr></wbr> ch,这几者更适合作什么,如何协调会更好
需要做的工作:
1.开发nutch的录入分析程序,还可以利用到map<wbr></wbr> /reduce
2.将solr的查询部分改为从hdfs搜索,之前以完<wbr></wbr> 成
虽然走了一些弯路,在solr上花费了不少时间,不过总<wbr></wbr> 算弄清了lucene,solr,hadoop,nut<wbr></wbr> ch,这几者更适合作什么,如何协调会更好