接着上次的solr数据导入后,下面继续如何在solr数据导入后,配置扩展词典以及停止词典。
内容:
1. 基于配置的词典扩充,IK 分词器还支持通过配置 IKAnalyzer.cfg.xml 文件来扩充您的扩展词典以及停止词典(过滤词典)。
一:部署IKAnalyzer.cfg.xml:
将IKAnalyzer.cfg.xml 部 署在 代 码根 目录 下( 对于web 项 目, 通 常是WEB-INF/classes 目彔)同 log4j 等配置文件相同。
二:词典文件的编辑不部署
分词器的词典文件格式是无 BOM 的 UTF-8 编码的中文文本文件,文件扩展名不
限。词典中,每个中文词汇独立占一行,使用\r\n 的 DOS 方式换行。(注,如果您不
了解什么是无 BOM 的 UTF-8 格式, 请保证您的词典使用 UTF-8 存储,并在文件的
头部添加一空行)。
您可以参考分词器源码 org.wltea.analyzer.dic 包下的.dic 文件。词典文件应部署在 Java 的资源路径下,即 ClassLoader 能够加载的路径中。(推荐同 IKAnalyzer.cfg.xml 放在一起)
三.IKAnalyzer.cfg.xml 文件的配置
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典
<entrykey="ext_dict">ext.dic;</entry>
-->
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
在配置文件中,用户可一次配置多个词典文件。文件名使用“;”号分隔。文件路径为
相对 java 包的起始根路径。