Lucene5(3)分词器

1、介绍

lucene默认自带的分词器对中文支持并不好,所以对于中文索引的分词器,建议使用第三方开源的中文分词器。

2、常见分词器

private String testText = "解决:就是指定paoding 的一个字典文件目录,这个文件在下载下来的压缩包中的dic中";
/**
 * 分词器
 * @return
 */
public Analyzer getAnalyzer() {
    Analyzer analyzer = null;
    // 默认分词器
    analyzer = new StandardAnalyzer();
    // 中日韩语言分词器
//  analyzer = new CJKAnalyzer();
    // 空格分词器(以空格为分词标准)
//  analyzer = new WhitespaceAnalyzer();
    // 以标点符号来分隔的分词器
//  analyzer = new SimpleAnalyzer();
    // 等等
    return analyzer;
}

@Test
public void tokenTest() throws Exception {
    Analyzer analyzer = getAnalyzer();
    TokenStream ts = analyzer.tokenStream("myfield", testText);
    OffsetAttribute offsetAtt = ts.addAttribute(OffsetAttribute.class);
    ts.reset();
    while (ts.incrementToken()) {
        //输出分词后的效果
        System.out.println(offsetAtt.toString());
    }
    ts.end();
    ts.close();
}

3、第三方中文分词器

第三方中文分词器ansj对于中文的分词效果较好,建议使用。
ansj_lucene5_plug-5.1.1.2.jar
ansj_seg-5.1.1.jar
nlp-lang-1.7.2.jar
下载链接

public Analyzer getAnalyzer() {
    Analyzer analyzer = new AnsjAnalyzer(TYPE.index_ansj);
    return analyzer;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值