Lucene分词器

最新推荐文章于 2020-08-30 20:39:08 发布

csdnShenZhen

最新推荐文章于 2020-08-30 20:39:08 发布

阅读量510

点赞数 1

分类专栏： Lucene

本文链接：https://blog.csdn.net/csdnshenzhen/article/details/73496576

版权

Lucene 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Lucene全文检索架构自带分词器，通常该分词器对英文分词效果良好，它以空格作为切词标准，不对语汇单元进行其他规范化处理。但是我们在日常使用过程中，会出现检索中文的情况，这就需要使用第三方分词器了。

常用的第三方分词器有以下几种：

1. paoding：庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0，且最新提交的代码在 2008-06-03，在svn中最新也是2010年提交，已经过时，不予考虑。

2.mmseg4j：最新版已从 https://code.google.com/p/mmseg4j/ 移至 https://github.com/chenlb/mmseg4j-solr，支持Lucene 4.10，且在github中最新提交代码是2014年6月，从09年～14年一共有：18个版本，也就是一年几乎有3个大小版本，有较大的活跃度，用了mmseg算法。

3. IK-analyzer：最新版在https://code.google.com/p/ik-analyzer/上，支持Lucene 4.10从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。但是也就是2012年12月后没有在更新。

4. ansj_seg：最新版本在 https://github.com/NLPchina/ansj_seg tags仅有1.1版本，从2012年到2014年更新了大小6次，但是作者本人在2014年10月10日说明：“可能我以后没有精力来维护ansj_seg了”，现在由”nlp_china”管理。2014年11月有更新。并未说明是否支持Lucene，是一个由CRF（条件随机场）算法所做的分词算法。

5. imdict-chinese-analyzer：最新版在 https://code.google.com/p/imdict-chinese-analyzer/ ，最新更新也在2009年5月，下载源码，不支持Lucene 4.10 。是利用HMM（隐马尔科夫链）算法。

6. Jcseg：最新版本在git.oschina.net/lionsoul/jcseg，支持Lucene 4.10，作者有较高的活跃度。利用mmseg算法。

对于中文分词，首选IK-analyzer，使用方法如下：

1.添加分词器：下载IK-analyzer点击打开链接，将IK-analyzer.jar添加到项目下。

2.将标准分词代码：Analyzeranalyzer = new StandardAnalyzer();修改为：Analyzeranalyzer = new IKAnalyzer();

3.扩展分词：将stopword.dic,IKAnalyzer.cfg.xml,ext.dic三个文件拷贝到项目中。

4.配置IKAnalyzer.cfg.xml：

 <?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">ext.dic;</entry> 
	
	<!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">stopword.dic;</entry> 
	
</properties>

5.配置扩展字典和停用词字典

csdnShenZhen

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Lucene分词器

Lucene全文检索架构自带分词器，通常该分词器对英文分词效果良好，它以空格作为切词标准，不对语汇单元进行其他规范化处理。但是我们在日常使用过程中，会出现检索中文的情况，这就需要使用第三方分词器了。常用的第三方分词器有以下几种：1. paoding：庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0，且最新提
复制链接

扫一扫

专栏目录