基于lucene的几种中文分词测试代码

最新推荐文章于 2019-12-18 17:44:57 发布

iteye_13384

最新推荐文章于 2019-12-18 17:44:57 发布

阅读量212

点赞数

分类专栏： lucene

本文链接：https://blog.csdn.net/iteye_13384/article/details/82577696

版权

lucene 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

出处：http://hi.baidu.com/lewutian/item/0231d0f26132e2b731c19997

/**
@本程序测试了四种中文分词（标准，ChineseAnayzer，je，Smart(基于中科院)）的方法，读者可以通过本程序分析学习这四种中文分词方法的优劣
@其中lucene采用的2.4.1最新版本，点击这里下载学习
@中科院分词java版学习和下载到这里
@je-Analyzer下载到这里
*/
public static void main(String[] args)
    {
        String text ="发展中国家在上海大学城购买了道具和服装" ;
        StandardAnalyzer analyzerStand = new StandardAnalyzer();//内置
        ChineseAnalyzer    chineseAnalyzer = new ChineseAnalyzer();//lucene2.4版本+
        CJKAnalyzer cjkanalyzer = new CJKAnalyzer();//亚洲字符分析器
        MMAnalyzer    analyzer = new MMAnalyzer();//je-analyzer
        Analyzer    smartChineseAnalyzer = new SmartChineseAnalyzer();//基于中科院
        try
        {
            AnalyzerUtils.displaytokens(analyzerStand, text);
            AnalyzerUtils.displaytokens(chineseAnalyzer, text);
            AnalyzerUtils.displaytokens(cjkanalyzer, text);
            AnalyzerUtils.displaytokens(smartChineseAnalyzer, text);
            AnalyzerUtils.displaytokens(analyzer, text);
        }
        catch (IOException e)
        {
                e.printStackTrace();
        }

Run and Show results:

从结果可以看出2点：
正确率： Je>=Smart>=二分法>=Chinese>=Stand
时间：     Stand<=二分法Chinese<= Smart<=Je
还有一点，就是经过几次分析后，可以明显看出基于中科院的那个分词时间明显下降一个数量级，没有仔细
研究，怀疑和隐马尔科夫模型有关。

其他的优劣请读者自我发掘，有问题麻烦告诉我，Thx。
http://hi.baidu.com/lewutian推荐文章:
1. VC MFC中设置对话框的背景色、背景图片
2. 将汉字转化为拼音实现中英文混合排序 pinyin4j
3. 1
4. 1
5. Lucene 2.2.0
6. 转一篇比较好的Lucene的文章
7. Lucene构架全文搜索引擎
8. lucene 对目录索引和搜索例子
9. 用开源软件构建垂直搜索引擎
10. Lucene简单使用
11. lucene中文切词（没加庖丁方法的）算法
12. lucene demo
13. 采访IK Analyzer 中文分词器开源项目作者林良益
14. Lucene中文分词下载
15. lucence 3.0 分词测试