Lucene全文搜索之分词器：使用IK Analyzer中文分词器（修改IK Analyzer源码使其支持lucene5.5.x）...

最新推荐文章于 2024-11-03 11:01:20 发布

weixin_30478619

最新推荐文章于 2024-11-03 11:01:20 发布

阅读量320

点赞数

文章标签： java

原文链接：http://www.cnblogs.com/eguid/p/6821606.html

版权

注意：基于lucene5.5.x版本

一、简单介绍下IK Analyzer

IK Analyzer是linliangyi2007的作品，再此表示感谢，他的博客地址：http://linliangyi2007.iteye.com/

IK Analyzer支持两种分词，一种是最细粒度分词（推荐使用，Ik默认采用最细粒度），还有一种的智能分词（测试了一下智能分词还没有lucene自带的分词准确，呵呵了）。

二、IK Analyzer兼容性问题解决办法

IKanalyzer目前最新版本只支持到lucene4.x、solr4.x，所以我们需要修改一下IKanalyzer的源码，让它支持lucene5.5版本。

这里提供由本人修改的兼容lucene5.x的IK Analyzer版本，下载地址：http://download.csdn.net/detail/eguid_1/9576005

注意：基于lucene5.5.2版本，采用jdk1.7环境，lucene6.x请使用jdk1.8，lucene5.5.x的API与之前的版本有些微的改变。

三、为什么要使用中文分析器

那么回归标题，为什么要使用中文分词器，原因就是lucene自带的分析器StandardAnalyzer虽然支持中文，但是分词分的不够细，对于某些明显的中文词语没有进行分词。

四、如何使用中文分析器

我将Analyzer分析器单独拿了出来进行独立处理（这么做有很多好处，就是我可以很轻松的扩展使用新的分词器）

其他源码完全不变，只需要改变AnalyzerServ的代码即可。

IK分词器默认有三个相关配置文件：

ext.dic（扩展词库）；

IKAnalyzer.cfg.xml（扩展词库及停词库配置）；

stopword.dic（停词）

（1）建立索引时使用：

//false-最细粒度分词；true - 智能分词

Analyzer analyzer=new IKAnalyzer(false);

indexWriterConfig = new IndexWriterConfig(analyzer);

（2）搜索时使用：

//false-最细粒度分词；true - 智能分词

Analyzer analyzer=new IKAnalyzer(false);

QueryBuilder parser = new QueryBuilder(analyzer);

转载于:https://www.cnblogs.com/eguid/p/6821606.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。