From: http://www.javaeye.com/topic/49441 Lucene中文分词 “庖丁解牛” 附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。 高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据,可达1秒10万+汉字。) 对比:《终于突破中文分词的效率问题》http://www.lucene.org.cn/read.php?tid=54&fpage=2 他的效率为 6秒 解析2588汉字
2007.1.27日增加的内容 请求您的测试
|
Paoding.rar | ||
描述: | 中文分词“庖丁解牛”,面向对象,高效率,高扩展性 | ![]() 下载 |
文件名: | Paoding.rar | |
文件大小: | 1 M | |
下载过的: | 文件被下载或查看 1577 次 |
HashBinaryDictionary.java.rar | ||
描述: | 原来的HashBinaryDictionary.java使用对第一个字符hash+二份查找。这个算法已经不错。但下面的更新使用了更好的策略。可连续hash词语的字符。理论上这个词典算法应该到达极致了。覆盖HashBinaryDictionary.java在com/sohospace/dictionary下 | ![]() 下载 |
文件名: | HashBinaryDictionary.java.rar | |
文件大小: | 2 KB | |
下载过的: | 文件被下载或查看 878 次 |
Main1.java.rar | ||
描述: | 对一个长度2185856的字符串(4,347,520字节)的分词效率测试。 下载解压后添加到源文件中 | ![]() 下载 |
文件名: | Main1.java.rar | |
文件大小: | 6 KB | |
下载过的: | 文件被下载或查看 631 次 |
示例代码:搜索时...
- XAnalyzer analyzer = XFactory.getQueryAnalyzer();//搜索时应使用的分析器
- String testString = "中华人民共和国在1949年建立,从此开始了新中国的伟大篇章";
- Reader r = new StringReader(testString);
- XTokenizer ts = (XTokenizer) analyzer.tokenStream("", r);
- Token t;
- while ((t = ts.next()) != null) {
- System.out.println(t);
- }
解析结果如下:
(中华人民共和国,0,7)
(1949年,8,13)
(建立,13,15)
(从此,16,18)
(开始,18,20)
(新中国,21,24)
(伟大,25,27)
(大篇,26,28)
(篇章,27,29)
示例代码2: 建立索引时...
- XAnalyzer analyzer = XFactory.getWriterAnalyzer();//建立索引时应使用的分析器
- String testString = "中华人民共和国在1949年建立,从此开始了新中国的伟大篇章";
- Reader r = new StringReader(testString);
- XTokenizer ts = (XTokenizer) analyzer.tokenStream("", r);
- Token t;
- while ((t = ts.next()) != null) {
- System.out.println(t);
- }
解析结果如下:
(中华,0,2)
(中华人民,0,4)
(中华人民共和国,0,7)
(华人,1,3)
(人民,2,4)
(人民共和国,2,7)
(共和,4,6)
(共和国,4,7)
(1949,8,12)
(1949年,8,13)
(年,12,13)
(建立,13,15)
(从此,16,18)
(开始,18,20)
(新中国,21,24)
(中国,22,24)
(伟大,25,27)
(大,26,27)
(大篇,26,28)
(篇章,27,29)