Nutch Nutch插件实现自定义索引字段

最新推荐文章于 2017-12-13 16:55:00 发布

iteye_16675

最新推荐文章于 2017-12-13 16:55:00 发布

阅读量185

点赞数

文章标签： solr lucene

本文链接：https://blog.csdn.net/iteye_16675/article/details/82583990

版权

1. nutch 基本配置和安装不在赘述。
2.新建自己的plugin 只要实现对应的plugin接口即可。
3.plugin.xml 的具体配置可以参考plugins目录下的标准。
4.一个是schema.xml，在其中的fields标签下加入如下代码：


 <field name="test1" type="date" stored="true" indexed="true"/>  
<field name="test2" type="string" stored="true" indexed="true"/>

其中的stored表示这个字段的值要存储在lucene的索引中
其中的indexed表示这个字段的值是不是要进行分词查询

还有一个是solrindex-mapping.xml文件，这个文件的作用是把索引过滤器中生成的字段名与schema.xml中的做一个对应关系，要在其fields标签中加入如下代码：


<field dest="test1" source="fetchTime"/>  
<field dest="test2" source="metadata"/>

这样自定义索引过滤插件就算完成了，记得这里的schema.xml文件是在solr/conf目录下的，修改以后要重启一下，不知道solr支不支持修改了配置文件后不重启就可以生效。

bin/nutch solrindex http://localhost:8080/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*
solr的索引文件在solr/data/index中，你可以用luke这个工具加开其索引文件，看一下其中的一些元信息，这个时候你就应该可以看到test1与test2这两个字段了.

5. 查询
http://localhost:8080/solr/admin/
到对应的core中输入关键字查询，index的字段就出现了。test1和test2.

OVER
记录下，免得遗忘。