mmseg4j
clbchenlb
这个作者很懒,什么都没留下…
展开
-
中文分词 mmseg4j
使用 paoding 的配置觉得有点复杂,而且管理词库也有点不方便,同时自己也想了解下中文分词算法,然后就想自己写个中文分词器,在lucene和solr中使用。在 javaeye 看到有关 mmseg 的简介,看了下还不错,简单方便,那就用它来写个java版吧,我搜索 mmseg的java版(好像是 solo,官方已经下载不了),弄清分词算法还是自己写写吧。实在想不到其它名字,就称它为 m...2009-03-22 23:46:28 · 207 阅读 · 0 评论 -
mmseg4j 分词速度
看一下 mmseg4j 的分词速度如何,下载了两篇长篇小说共2.5M左右,可以到 [url]http://mmseg4j.googlecode.com/files/txt.zip[/url]。2.5M的数据,用Complex模式是 5.3秒左右,不知是快还是慢(因为没有对比),Simple 模式用了2.9秒。(AMD athlon 64 2800+ 1G内存 xp)以上数据是在 eclip...2009-03-28 17:03:03 · 186 阅读 · 0 评论 -
mmseg4j 中文分词 1.5 版发布
经过几天的开发与调试,新版的 mmseg4j 可以发布了。定为1.5版,是因为变动比较大。mmseg4j 1.5变更:[list][*]使用 sogou 词库,是从 [url]http://www.sogou.com/labs/dl/w.html[/url] ,下载的,然后转换下(一行一词)。 [*]把chars.dic文件放到jar里, 我们不需要关心它,当然你在词库...2009-04-01 14:25:03 · 139 阅读 · 0 评论 -
mmseg4j 中文分词 1.6 版发布
经过几天的开发与调试,mmseg4j 1.6 版可以发布了。1.6 版主要实现与下功能:[list][*]实现多分词,在complex基础上,把长的词(大于2)拆出多个词。按二元分词,且把不存在的词去了,如:“西伯利亚” -> "西|伯利|利亚","西伯" 不存在词库中;“中国人民银行”-> "中国|国人|人民|银行" [*]支持多个词库文件,在词库目录中放"words"前缀且"....2009-04-07 09:46:01 · 127 阅读 · 0 评论 -
mmseg4j 多分词模式与 paoding 分词效果对比
mmseg4j 1.6支持最多分词,应网友的要求:分词效果与 paoding 对比下。观察了 paoding 部分分词结果,现总结下。paoding 分词效果:[code="java"]--------------------------清华大学清华 | 大 | 华大 | 大学 | --------------------------华南理工大学华南 | 理工 | ...2009-04-13 09:52:38 · 123 阅读 · 0 评论 -
mmseg4j 1.7 beta 版发布
mmseg4j 1.7 beta 版,主要改进分词速度。最大的变动是词库的数据结构改变了,改为key tree(键树)。有几点的性能改进:[list][*]要比较的词不从 char[] sen(代分词的句子) 里复制,直接与词库结构比较, 性能提升10% [*]用 key tree 的词库数据结构, 性能提升不少[*]用 key tree 里实现的 maxmatch, 同时返回...2009-04-14 11:04:44 · 127 阅读 · 0 评论 -
中文分词 mmseg4j-1.8 版发布
想发布新版的 mmseg4j 到现在已经有二个多月了。主要是因为这段时间忙其它事情了。现 Lucene 2.9 发布了,solr 1.4 也应该会比较快就要发布了。对 mmseg4j 兼容新版的 lucene/solr 也是个任务。 现 mmseg4j 发布新版 1.8,可以下载:mmseg4j-1.8.zip 包括了源码与词库,还有创建文件。下面说下此版的主要变更: new:...2009-10-19 09:39:33 · 325 阅读 · 0 评论 -
中文分词 mmseg4j 1.7.2 版发布
中文分词 mmseg4j 1.7.2 版发布,其实两天前就发布了,只是没有写博客而已。与引版本发布的还有 1.6.2,两者基本一样,只是词库的数据结构不同,1.7的是键树,1.6的是数组与二分查找。mmseg4j 1.7.2 版的主要更新:[list][*] 修复由 1.7-beta 升级到 1.7 版的 bug:添加 lowerCaseFilter 后的一个 bug: NullP...2009-04-27 10:12:09 · 170 阅读 · 0 评论 -
讨论 mmseg4j 的现状,与改进。
发布最新一个 mmseg4 (1.7.2 与 1.6.2)版,距今也有几个月了。max-word 方式还不完善,有很多需要改进的地方。由于没有个好的想法,以至几个月都没更新。mmseg4j 项目也受到一些的关注,十分有必要改进。这贴说明下 mmseg4 的现状和 todo 功能,同时希望 javaeyer 们给予些建议或想法。 字符的处理:先断开不同类型的字符,断开的成为一个“句子”(类:...2009-08-04 13:58:19 · 358 阅读 · 0 评论