mmseg4j 中文分词器的一些简介整理

原创 2010年05月14日 17:03:00

在 lucene 中,我们是使用 IndexWriter 调用 Analyzer 将文章切成以词为单位的 Stream,然后生成索引的。lucene 内建的分词器很多,比如:按空白字符分词的WhitespaceAnalyzer,添加了stopword过滤的StopAnalyzer,以及最常用的是StandardAnalyzer。这些自带的分词器对中文支持多不好,我觉得比较好的中文分词器是 mmseg4j

 

mmseg4j 是用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。并实现了 lucene 的 analyzer 和 solr 的 TokenizerFactory 以方便在 Lucene 和 Solr 中使用。

 

对 lucene  来说 ,mmseg4j 有以下四个 analyzer:SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer、MMSegAnalyzer。前面三个都是继承 MMSegAnalyzer,MMSegAnalyzer 默认使用 max-word 方式分词。

 

上面四个分次类涉及到了三个分词方法:Simple、Complex、max-word。MMSeg 算法有两种分词方法:Simple 和 Complex,都是基于正向最大匹配。mmseg4j  1.6 版开始在 Complex 算法基础上实现了最多分词(max-word)。类似如下的分词就是 max-word 分词:“很好听” -> "很好|好听"; “中华人民共和国” -> "中华|华人|共和|国"; “中国人民银行” -> "中国|人民|银行"。

 

mmseg4j 的词库是使用 utf-8 格式的,由于 utf-8 文件有带与不带 BOM 之分,建议词库第一行为空行或为无 BOM 格式的 utf-8 文件。

 

jar 中已有了,只有你对这个不满意时才需要替换的词库文件:

  • data/chars.dic 是单字与语料中的频率,一般不用改动,mmseg4j 1.5版本后已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可以覆盖它。
  • data/units.dic 是单字的单位,默认读jar包里的,你也可以自定义覆盖它,这功能是试行,如果不喜欢它,可以空的units.dic文件(放到你的词库目录下)覆盖它。

词库文件:

  • data/words.dic 是词库文件,一行一词,当然你也可以使用自己的,1.5版本使用 sogou 词库,1.0的版本是用 rmmseg 带的词库。 一般我们使用这个作为系统自带词库。分词效果当然还与词库有关,sogou 的词库是统计得出,有些高频的单字组合也成了词,如“我们的”。如果还要提高 mmseg4j 的分词效果,还要在整理下词库。
  • data/wordsxxx.dic 1.6版支持多个词库文件,data 目录(或你定义的目录)下读到"words"前缀且".dic"为后缀的文件。如:data/words-my.dic。 一般我们在这里里面,把这个当成我们自身特色的词库。

停止词

  • mmseg4j 没有加任何 stopword,如果需要 stopword  ,需要用户自己实现。作者认为:这东西留给使用者自己加,因为作者不认为加 stopword 是好的方法。如音乐搜索,给加上 the,this……,还能找到歌曲?

 

参考资料:

mmseg4j 作者的博客
http://blog.chenlb.com

中文分词 mmseg4j 在 lucene 中的使用示例
http://blog.chenlb.com/2009/04/use-chinese-segment-mmseg4j-in-lucene-demo.html

Lucene中文分词
http://www.fallever.com/blog/jeff/tag/49/

mmseg4j 中文分词简单代码实例

import com.chenlb.mmseg4j.*; import com.chenlb.mmseg4j.analysis.ComplexAnalyzer; import java.io.Str...
  • piaoxuefengqi
  • piaoxuefengqi
  • 2017年05月10日 10:35
  • 488

与Lucene 4.10配合的中文分词比较

比较目的 衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。 分词源代码介绍 paoding: 庖丁解牛最新版在 https://code.go...
  • tianwei7518
  • tianwei7518
  • 2015年06月23日 16:49
  • 937

Java运行原理与Java虚拟机.pdf

  • 2014年05月27日 16:08
  • 964KB
  • 下载

Elasticsearch-4种内置分析器

新手需要特别注意ES中内置的分析器,否则查询结果很可能不是预期的,分析器它直接影响到Search与Index操作。Built-in AnalyzersHowever, Elasticsearch al...
  • xifeijian
  • xifeijian
  • 2016年03月03日 23:38
  • 8895

solr-用mmseg4j配置同义词索引和检索(IKanlyzer需要修改源码适应solr接口才能使用同义词功能)

solr中自带有synonyms的功能,但是功能很有限,因为中文需要在分词的基础上进行搜索,所以官方的配置就没有多大意义。        概念说明:同义词大体的意思是指,当用户输入一个词时,so...
  • qing419925094
  • qing419925094
  • 2014年07月02日 14:15
  • 1098

利用mmSeg4j分词实现网页文本倾向性分析

利用mmSeg4j分词实现网页文本倾向性分析         最近一直在做网页情感倾向性分析的工作,找了一些论文,发现基于机器学习的算法在项目中不太合适,于是自己鼓捣了一套基于中文分词和正负面词库的...
  • qq_26562641
  • qq_26562641
  • 2015年12月16日 10:19
  • 667

Mmseg中文分词算法解析

Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自动识别的时候,我采用都是基于mmseg中文分词算法开发的Jcseg开源工程。使用场景涉及搜索索引创建时的中...
  • wendingzhulu
  • wendingzhulu
  • 2015年03月12日 20:17
  • 1226

solr4.8中集成mmseg4j1.9.1

要想在Solr中整合mmseg4j其实很容易,只需要如下几个步骤   1、下载(https://code.google.com/p/mmseg4j/downloads/list)并解压mm...
  • qing419925094
  • qing419925094
  • 2014年06月23日 19:18
  • 1006

中文情感倾向性分析(IEEE2010)

Chinese Sentiment Orientation Analysis 中文情感倾向性分析(IEEE2010) 文章提出了一个新方法分析、划分商品评论的情感倾向性为3类:中立,积极和消极。目前的...
  • ABCD2010014357
  • ABCD2010014357
  • 2015年08月20日 11:22
  • 1017

Lucene4.9使用 mmseg4j1.9遇到的问题,修改mmseg4j源码解决了

今天在可能Lucene4.9直接用 
  • hunanlzg
  • hunanlzg
  • 2014年07月17日 17:34
  • 896
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:mmseg4j 中文分词器的一些简介整理
举报原因:
原因补充:

(最多只允许输入30个字)