Nutch Nutch插件实现自定义索引字段

1. nutch 基本配置和安装不在赘述。
2.新建自己的plugin 只要实现对应的plugin接口即可。
3.plugin.xml 的具体配置可以参考plugins目录下的标准。
4.一个是schema.xml,在其中的fields标签下加入如下代码:


<field name="test1" type="date" stored="true" indexed="true"/>
<field name="test2" type="string" stored="true" indexed="true"/>


其中的stored表示这个字段的值要存储在lucene的索引中
其中的indexed表示这个字段的值是不是要进行分词查询

还有一个是solrindex-mapping.xml文件,这个文件的作用是把索引过滤器中生成的字段名与schema.xml中的做一个对应关系,要在其fields标签中加入如下代码:


<field dest="test1" source="fetchTime"/>
<field dest="test2" source="metadata"/>


这样自定义索引过滤插件就算完成了,记得这里的schema.xml文件是在solr/conf目录下的,修改以后要重启一下,不知道solr支不支持修改了配置文件后不重启就可以生效。


bin/nutch solrindex http://localhost:8080/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*
solr的索引文件在solr/data/index中,你可以用luke这个工具加开其索引文件,看一下其中的一些元信息,这个时候你就应该可以看到test1与test2这两个字段了.

5. 查询
http://localhost:8080/solr/admin/
到对应的core中输入关键字查询,index的字段就出现了。test1和test2.

OVER
记录下,免得遗忘。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值