solr(五)扩展词典以及停止词典配置

接着上次的solr数据导入后,下面继续如何在solr数据导入后,配置扩展词典以及停止词典。

内容:

1.      基于配置的词典扩充,IK 分词器还支持通过配置 IKAnalyzer.cfg.xml 文件来扩充您的扩展词典以及停止词典(过滤词典)。

 

一:部署IKAnalyzer.cfg.xml:

将IKAnalyzer.cfg.xml 部 署在 代 码根 目录 下( 对于web 项 目, 通 常是WEB-INF/classes 目彔)同 log4j 等配置文件相同。

二:词典文件的编辑不部署

分词器的词典文件格式是无 BOM 的 UTF-8 编码的中文文本文件,文件扩展名不

限。词典中,每个中文词汇独立占一行,使用\r\n 的 DOS 方式换行。(注,如果您不

了解什么是无 BOM 的 UTF-8 格式, 请保证您的词典使用 UTF-8 存储,并在文件的

头部添加一空行)。

您可以参考分词器源码 org.wltea.analyzer.dic 包下的.dic 文件。词典文件应部署在 Java 的资源路径下,即 ClassLoader 能够加载的路径中。(推荐同 IKAnalyzer.cfg.xml 放在一起)

三.IKAnalyzer.cfg.xml 文件的配置

<properties>
   
<comment>IK Analyzer 扩展配置</comment>
   
<!--用户可以在这里配置自己的扩展字典
   
<entrykey="ext_dict">ext.dic;</entry>
    -->
    <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords">stopword.dic;</entry>
</properties>

在配置文件中,用户可一次配置多个词典文件。文件名使用“;”号分隔。文件路径为

相对 java 包的起始根路径。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值