13、学习Lucene3.5索引之通过TokenStream显示分词

1.显示分词词汇

public static void displayToken(String str, Analyzer analyzer){
    try {
        /**
         * TokenStream tokenStream(String fieldName, Reader reader):
         * 获取TokenStream(分词流)
         * 参数一:域名(这里没有什么实际意义)
         * 参数二:输入流
         */
        TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(str));

        //创建一个属性(里面有分词后的词汇),这个属性添加到TokenStream中,随TokenStream移动而增加
        CharTermAttribute cta = tokenStream.addAttribute(CharTermAttribute.class);

        //遍历TokenStream
        while (tokenStream.incrementToken()){
            System.out.print("["+cta+"]");
        }
        System.out.println("");
        System.out.println("--------------------------------");
    } catch (IOException e) {
        e.printStackTrace();
    }
}

2.显示分词所有信息

public static void displayAllTokenInfo(String str, Analyzer analyzer){
    try {
        TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(str));
        //位置增量的属性,存储语汇单元之间的距离
        PositionIncrementAttribute pia = tokenStream.addAttribute(PositionIncrementAttribute.class);
        //每个语汇单元的位置偏移量
        OffsetAttribute oa = tokenStream.addAttribute(OffsetAttribute.class);
        //使用的分词器的类型信息
        TypeAttribute ta = tokenStream.addAttribute(TypeAttribute.class);
        //存储每一个语汇单元的信息(分词单元信息)
        CharTermAttribute ca = tokenStream.addAttribute(CharTermAttribute.class);
        while (tokenStream.incrementToken()){
            System.out.println("位置增量:"+pia+" 词汇的偏移量:"+oa.startOffset()+"--"+oa.endOffset()+" 类型:"+ta+" 分词:"+ca);
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
lucene是一个功能强大、高性能的开源搜索引擎库,它提供了索引分词机制来提升搜索的效率和准确性。 索引lucene中重要的概念之一。在搜索引擎中,文档被索引后才能被搜索到。lucene使用倒排索引的方式进行索引构建,也就是将文档中的词语作为索引的基本单位,而不是文档本身。lucene将每个词语与它所在的文档进行映射,这样在搜索时就能快速找到包含指定词语的文档。通过索引lucene能够高效地处理大量的文档,并且支持各种搜索方式,如全文搜索、精确搜索、模糊搜索等。 分词是将文本切割成一个个有意义的词语的过程。在搜索引擎中,将文档进行分词后可以提高搜索的效果,使得搜索更加准确。lucene提供了多种分词器,可以根据不同的语言和需求选择适合的分词器。分词器将文本中的词语提取出来,并进行词根化、去掉停用词等预处理操作,使得搜索时能够匹配到更多的相关文档。例如,在对一篇英文文档进行索引前,lucene分词器会将该文档中的单词逐个提取出来,并将单词转化为词干形式,如将“running”转化为“run”,以提高搜索的准确性和覆盖度。 总之,lucene索引分词机制是搜索引擎实现高效、准确搜索的重要组成部分。通过索引lucene可以快速定位到包含指定词语的文档;通过分词lucene可以对文本进行预处理,使得搜索时能够匹配更多相关文档。这些机制的结合让lucene具备了强大的搜索能力,广泛应用于各类搜索引擎和文本检索系统中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值