Lucene全文搜索之分词器：使用IK Analyzer中文分词器（修改IK Analyzer源码使其支持lucene5.5.x）

最新推荐文章于 2024-08-06 19:13:04 发布

eguid_1

最新推荐文章于 2024-08-06 19:13:04 发布

阅读量6.4k

点赞数 5

分类专栏： lucene 文章标签： lucene

eguid温馨提示：本博客所有原创文章、代码和作品版权均归作者eguid所有，如有转载需要征得作者同意，侵权必究！博主GITHUB：https://github.com/eguid/

本文链接：https://blog.csdn.net/eguid_1/article/details/51908862

版权

lucene 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

注意：基于lucene5.5.x版本

一、简单介绍下IK Analyzer

IK Analyzer是linliangyi2007的作品，再此表示感谢，他的博客地址：http://linliangyi2007.iteye.com/

IK Analyzer支持两种分词，一种是最细粒度分词（推荐使用，Ik默认采用最细粒度），还有一种的智能分词（测试了一下智能分词还没有lucene自带的分词准确，呵呵了）。

二、IK Analyzer兼容性问题解决办法

IKanalyzer目前最新版本只支持到lucene4.x、solr4.x，所以我们需要修改一下IKanalyzer的源码，让它支持lucene5.5版本。

这里提供由本人修改的兼容lucene5.x的IK Analyzer版本，下载地址：http://download.csdn.net/detail/eguid_1/9576005

注意：基于lucene5.5.2版本，采用jdk1.7环境，lucene6.x请使用jdk1.8，lucene5.5.x的API与之前的版本有些微的改变。

三、为什么要使用中文分析器

那么回归标题，为什么要使用中文分词器，原因就是lucene自带的分析器StandardAnalyzer虽然支持中文，但是分词分的不够细，对于某些明显的中文词语没有进行分词。

四、如何使用中文分析器

我将Analyzer分析器单独拿了出来进行独立处理（这么做有很多好处，就是我可以很轻松的扩展使用新的分词器）

其他源码完全不变，只需要改变AnalyzerServ的代码即可。

IK分词器默认有三个相关配置文件：

ext.dic（扩展词库）；

IKAnalyzer.cfg.xml（扩展词库及停词库配置）；

stopword.dic（停词）

（1）建立索引时使用：

//false-最细粒度分词；true - 智能分词

Analyzer analyzer=new IKAnalyzer(false);

indexWriterConfig = new IndexWriterConfig(analyzer);

（2）搜索时使用：

//false-最细粒度分词；true - 智能分词

Analyzer analyzer=new IKAnalyzer(false);

QueryBuilder parser = new QueryBuilder(analyzer);

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

eguid_1 感谢支持eguid原创技术文章

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。