Lucene中文分词“庖丁解牛”

最新推荐文章于 2022-06-27 09:57:58 发布

newweapon

最新推荐文章于 2022-06-27 09:57:58 发布

阅读量1.4k

点赞数

分类专栏： java 文章标签： lucene 测试算法扩展 null

java 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

From: http://www.javaeye.com/topic/49441

Lucene中文分词 “庖丁解牛”

附件为本人设计编写的组件，中文分词“庖丁解牛”，具有相当好的使用价值。。。

高效率：我的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据，可达1秒10万+汉字。)
高可维护性：使用“庖丁”隐喻，形象明晰
高灵活性，可扩展：OOD

对比：《终于突破中文分词的效率问题》http://www.lucene.org.cn/read.php?tid=54&fpage=2 他的效率为 6秒解析2588汉字

示例程序为com.sohospace.lucene.analysis.xanalyzer.Main0

附件的源代码是GBK编码的，若有需要utf8编码的，alin_ass同志辛苦转化提供了一份，在第二页：http://www.javaeye.com/post/213041
下载完Paoding.rar后，请继续下载HashBinaryDictionary.java.rar解压后覆盖到指定com/sohospace/dictionary位置，替换原来的HashBinaryDictionary.java
BUGFIX: 请在com.sohospace.paoding.cjk.FileWordsLoader.java的loadCJKVocabulary方法返回前加上如下一行代码 (Fix 噪声词没有处理的bug)：

Merger.remove(base, ejk.get("x干扰词")); //哪些词是噪声词：在 "x干扰词.dic"文件中定义。

2007.1.27日增加的内容请求您的测试
各位eye友是否可以把您的测试数据，以及机器配置发送到我的javaeye收件箱中以有利于持续改进感谢先。
测试类使用com.sohospace.lucene.analysis.xanalyzer.Main1.java (请从下面清单，下载Main1.java.rar解压后添加到源文件中)
被测试的字符串总长度2, 185, 856字 4, 347, 520字节。我现在测试数据如下(Celeron 2.13GHz 512m内存)：

:::文章大小: 2185856字 4347520字节
:::词典装载耗时: 1719 ms
:::切词+打印耗时: 8053 ms

Paoding.rar
描述:	中文分词“庖丁解牛”，面向对象，高效率，高扩展性	下载
文件名:	Paoding.rar
文件大小:	1 M
下载过的:	文件被下载或查看 1577 次

HashBinaryDictionary.java.rar
描述:	原来的HashBinaryDictionary.java使用对第一个字符hash+二份查找。这个算法已经不错。但下面的更新使用了更好的策略。可连续hash词语的字符。理论上这个词典算法应该到达极致了。覆盖HashBinaryDictionary.java在com/sohospace/dictionary下	下载
文件名:	HashBinaryDictionary.java.rar
文件大小:	2 KB
下载过的:	文件被下载或查看 878 次

Main1.java.rar
描述:	对一个长度2185856的字符串(4,347,520字节)的分词效率测试。下载解压后添加到源文件中	下载
文件名:	Main1.java.rar
文件大小:	6 KB
下载过的:	文件被下载或查看 631 次

示例代码：搜索时...

代码

XAnalyzer analyzer = XFactory.getQueryAnalyzer();//搜索时应使用的分析器
String testString = "中华人民共和国在1949年建立，从此开始了新中国的伟大篇章";
Reader r = new StringReader(testString);
XTokenizer ts = (XTokenizer) analyzer.tokenStream("", r);
Token t;
while ((t = ts.next()) != null) {
System.out.println(t);
}

解析结果如下：
(中华人民共和国,0,7)
(1949年,8,13)
(建立,13,15)
(从此,16,18)
(开始,18,20)
(新中国,21,24)
(伟大,25,27)
(大篇,26,28)
(篇章,27,29)

示例代码2：建立索引时...

代码

XAnalyzer analyzer = XFactory.getWriterAnalyzer();//建立索引时应使用的分析器
String testString = "中华人民共和国在1949年建立，从此开始了新中国的伟大篇章";
Reader r = new StringReader(testString);
XTokenizer ts = (XTokenizer) analyzer.tokenStream("", r);
Token t;
while ((t = ts.next()) != null) {
System.out.println(t);
}

解析结果如下：
(中华,0,2)
(中华人民,0,4)
(中华人民共和国,0,7)
(华人,1,3)
(人民,2,4)
(人民共和国,2,7)
(共和,4,6)
(共和国,4,7)
(1949,8,12)
(1949年,8,13)
(年,12,13)
(建立,13,15)
(从此,16,18)
(开始,18,20)
(新中国,21,24)
(中国,22,24)
(伟大,25,27)
(大,26,27)
(大篇,26,28)
(篇章,27,29)

newweapon

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Lucene中文分词“庖丁解牛”

From: http://www.javaeye.com/topic/49441 Lucene中文分词 “庖丁解牛” 附件为本人设计编写的组件，中文分词“庖丁解牛”，具有相当好的使用价值。。。高效率：我的赛扬PC 1 秒解
复制链接

扫一扫