solr ik分词 java_13.solr学习速成之IK分词器

最新推荐文章于 2024-06-28 10:02:40 发布

金融先生-Frank

最新推荐文章于 2024-06-28 10:02:40 发布

阅读量120

点赞数

文章标签： solr ik分词 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35639680/article/details/114751520

版权

6898809.html

IKAnalyzer特性

a. 算法采用“正向迭代最细粒度切分算法”，支持细粒度和最大词长两种分词方式，速度最大支持80W字/秒(1600KB/秒)。

b. 支持多子处理器分析模式：中文、数字、字母，并兼容日文、韩文。

c. 较小的内存占用，优化词库占有空间，用户可自定义扩展词库。

d. 扩展lucene的扩展实现，采用歧义分析算法优化查询关键字的搜索排列组合，提高lucene检索命中率

IK分词算法理解

根据作者官方说法IK分词器采用“正向迭代最细粒度切分算法”，分析它的源代码，可以看到分词工具类IKQueryParser起至关重要的作用，它对搜索关键词采用从最大词到最小词层层迭代检索方式切分，比如搜索词：“中华人民共和国成立了”，首先到词库中检索该搜索词中最大分割词，即分割为：“中华人民共和国”和“成立了”，然后对“中华人民共和国”切分为“中华人民”和“人民共和国”，以此类推。最后，“中华人民共和国成立了”切分为：“中华人民 | 中华 | 华人 | 人民 | 人民共和国 | 共和国 | 共和 | 成立 | 立了”，当然，该切分方式为默认的细粒度切分，若按最大词长切分，结果为：“中华人民共和国 | 成立 | 立了”。

其它分词器

目前的分词器有：mmseg4j、paoding、ik-analyzer、imdict、Ansj；目前任在持续更新的有mmseg4j、ik-analyzer和Ansj，这三类分词器都有java的实现，ansj是一个ictclas的java实现，ictclas是中科院计算技术研究所的一个中文分词器，目前用的比较广泛的还是ik-analyzer分词器和mmseg4j 分词器，我们对比下：

mmseg4j ：自带sogou词库，支持名为 wordsxxx.dic， utf8文本格式的用户自定义词库，一行一词。不支持自动检测。

ik ：支持api级的用户词库加载，和配置级的词库文件指定，无 BOM 的 UTF-8 编码，rn 分割。不支持自动检测。

mmseg4j ：在complex基础上实现了最多分词(max-word)，但是还不成熟，还有很多需要改进的地方。

ik ：针对Lucene全文检索优化的查询分析器IKQueryParser

IK与solr的集成

1.添加jar

将ik-analyzer-solr5-5.x.jar 放到apache-tomcat-8.5.15/webapps/solr/WEB-INF/lib

2.配置test核下面的schema.xml

有了这个fieldType,我们顺便改一个text_ik的field

3.添加扩展词库

在apache-tomcat-8.5.15/webapps/solr/WEB-INF下创建classes文件夹,添加ext.dic,IKAnalyzer.cfg.xml,stopword.dic文件

也可以添加多个词库文件.IKAnalyzer.cfg.xml的内容如下

IK Analyzer 扩展配置

ext.dic;

stopword.dic;

重启tomcat

金融先生-Frank

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。