Lucene5(3)分词器

最新推荐文章于 2021-02-24 05:02:12 发布

祈雨v

最新推荐文章于 2021-02-24 05:02:12 发布

阅读量472

点赞数

分类专栏： lucene Lucene5 文章标签： lucene

本文链接：https://blog.csdn.net/sz85850597/article/details/78148903

版权

lucene 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

Lucene5

6 篇文章 0 订阅

订阅专栏

1、介绍

lucene默认自带的分词器对中文支持并不好，所以对于中文索引的分词器，建议使用第三方开源的中文分词器。

2、常见分词器

private String testText = "解决：就是指定paoding 的一个字典文件目录，这个文件在下载下来的压缩包中的dic中";
/**
 * 分词器
 * @return
 */
public Analyzer getAnalyzer() {
    Analyzer analyzer = null;
    // 默认分词器
    analyzer = new StandardAnalyzer();
    // 中日韩语言分词器
//  analyzer = new CJKAnalyzer();
    // 空格分词器(以空格为分词标准)
//  analyzer = new WhitespaceAnalyzer();
    // 以标点符号来分隔的分词器
//  analyzer = new SimpleAnalyzer();
    // 等等
    return analyzer;
}

@Test
public void tokenTest() throws Exception {
    Analyzer analyzer = getAnalyzer();
    TokenStream ts = analyzer.tokenStream("myfield", testText);
    OffsetAttribute offsetAtt = ts.addAttribute(OffsetAttribute.class);
    ts.reset();
    while (ts.incrementToken()) {
        //输出分词后的效果
        System.out.println(offsetAtt.toString());
    }
    ts.end();
    ts.close();
}

3、第三方中文分词器

第三方中文分词器ansj对于中文的分词效果较好，建议使用。
ansj_lucene5_plug-5.1.1.2.jar
ansj_seg-5.1.1.jar
nlp-lang-1.7.2.jar
下载链接

public Analyzer getAnalyzer() {
    Analyzer analyzer = new AnsjAnalyzer(TYPE.index_ansj);
    return analyzer;
}