搜索引擎solr系列---自定义扩展词库的配置

最新推荐文章于 2023-06-10 14:15:25 发布

茁壮成长的凌大大

最新推荐文章于 2023-06-10 14:15:25 发布

阅读量4.4k

点赞数 1

分类专栏： solr solr学习文章标签： solr 自定义分词

本文链接：https://blog.csdn.net/wohaqiyi/article/details/78292720

版权

solr 同时被 2 个专栏收录

15 篇文章 1 订阅

订阅专栏

solr学习

15 篇文章 1 订阅

订阅专栏

如果配置好分词，它会智能分词，对于一些特殊的词句，可能不会分成你想要的词

比如这么一句话，“清池街办新庄村”，配置好分词后，会有如下的结果：

这里写图片描述

分词后的结果，并没有你想要的“清池街办新庄村”的这个词，这种情况就需要配置自定义的扩展词库了。

扩展词库的配置很简单,具体步骤如下：

1.前提是你要先配置好分词，分词的配置在上一篇博客中写到搜索引擎solr系列—solr分词配置

2.然后找到你的运行solr的tomcat，找到它下边的webapps/solr/WEB-INF/classes文件夹，打开里边应该已经有了一个`log4j.properties`(当然如果你在以前，把log4j.properties文件放到了lib文件夹中，那需要新建一个classes文件夹，放进去)在`classes` 文件夹中新建三个文件，命名分别为`IKAnalyzer.cfg.xml` 、`ext.dic`、`stopword.dic` 具体的下载地址三个配置文件的下载位置

IKAnalyzer.cfg.xml 文件即配置ext.dic和stopword.dic两个字典库的位置。具体配置如下：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典，多个以分号隔开 -->
<entry key="ext_dict">ext.dic;</entry> 
<!--用户可以在这里配置自己的扩展停止词字典，多个以分号隔开-->
<entry key="ext_stopwords">stopword.dic;</entry> 
</properties>

ext.dic即扩展词库的存储文件，比如我打算建立一个词“清池街办新庄村”这样一个词，那打开该文件，在里边新添一个即可：

这里写图片描述

添加的每个词都自己占一行就可以的。
stopword.dic停止词字典的配置，你可以将空格什么的填进去，这里不用这个字典配置。

3.配置完之后，需要重启tomcat，然后再回到开始的位置查看一下“清池街办新庄村”的分词结果：

这里写图片描述

4.以上，即完成了扩展词库的配置。这样就使劲的添加你的那些想分词却没有分的词了。

茁壮成长的凌大大

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
搜索引擎solr系列---自定义扩展词库的配置

如果配置好分词，它会智能分词，对于一些特殊的词句，可能不会分成你想要的词比如这么一句话，“清池街办新庄村”，配置好分词后，会有如下的结果：分词后的结果，并没有你想要的“清池街办新庄村”的这个词，这种情况就需要配置自定义的扩展词库了。扩展词库的配置很简单,具体步骤如下：1.前提是你要先配置好分词，分词的配置在上一篇博客中写到搜索引擎solr系列—solr分词配...
复制链接

扫一扫