搜索引擎solr系列---自定义扩展词库的配置

  如果配置好分词,它会智能分词,对于一些特殊的词句,可能不会分成你想要的词

  比如这么一句话,“清池街办新庄村”,配置好分词后,会有如下的结果:

这里写图片描述

  分词后的结果,并没有你想要的“清池街办新庄村”的这个词,这种情况就需要配置自定义的扩展词库了。

扩展词库的配置很简单,具体步骤如下:
1.前提是你要先配置好分词,分词的配置在上一篇博客中写到搜索引擎solr系列—solr分词配置
2.然后找到你的运行solr的tomcat,找到它下边的webapps/solr/WEB-INF/classes文件夹,打开里边应该已经有了一个log4j.properties(当然如果你在以前,把log4j.properties文件放到了lib文件夹中,那需要新建一个classes文件夹,放进去)在classes 文件夹中新建三个文件,命名分别为IKAnalyzer.cfg.xmlext.dicstopword.dic 具体的下载地址三个配置文件的下载位置

  IKAnalyzer.cfg.xml 文件即配置ext.dic和stopword.dic两个字典库的位置。具体配置如下:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典,多个以分号隔开 -->
<entry key="ext_dict">ext.dic;</entry> 
<!--用户可以在这里配置自己的扩展停止词字典,多个以分号隔开-->
<entry key="ext_stopwords">stopword.dic;</entry> 
</properties>

  ext.dic即扩展词库的存储文件,比如我打算建立一个词“清池街办新庄村”这样一个词,那打开该文件,在里边新添一个即可:

这里写图片描述

  添加的每个词都自己占一行就可以的。
  stopword.dic停止词字典的配置,你可以将空格什么的填进去,这里不用这个字典配置。

3.配置完之后,需要重启tomcat,然后再回到开始的位置查看一下“清池街办新庄村”的分词结果:

这里写图片描述

4.以上,即完成了扩展词库的配置。这样就使劲的添加你的那些想分词却没有分的词了。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

茁壮成长的凌大大

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值