Lucene（8_2_0）核心API学习之 TokenStream（一）

kris_cc

于 2019-08-15 10:39:47 发布

阅读量1.5k

点赞数 3

分类专栏： Lucene 文章标签： lucene TokenStream incrementToken Token Tokenizer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014260748/article/details/99622171

版权

Lucene 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、继承

org.apache.lucene.analysis.TokenStream entends org.apache.lucene.util.AttributeSource

二、详情

TokenStream是一个抽象类，是一系列Token的枚举，这里的Token有两个来源，一是Document的Fields，一是查询语句Query；
这是一个抽象类，有两个具体子类：

Tokenizer，分词器，输入为Reader；

TokenFilter，过滤器，输入为TokenStream；

用法：一般先用分词器分词，然后用过滤器过滤，这样可以缩小搜索范围，提高效率；

3. TokenStream继承于AttributeSource，AttributeSource提供给TokenStream访问所有Token属性Attributes的方法。注意每一个AttributeImpl（Attribute的实现类）只有一个实例（单例模式）被创造，然后被所有的tokens重复使用。这样做是为了减少创建对象的消耗，同时允许对AttributeImpl引用的本地缓存。看incrementToken（）可以获得更多详情。

三、TokenStream工作流程的核心API

实例化（Instantiation）：实例化一个TokenStream或TokenFilter需要从AttributeSource添加相应的属性；
状态重置（reset）：消费者在使用token前一定要先将状态reset（），因为每一个属性是单例的，被所有token使用；
查询属性并存储在本地：消费者从stream流中检索属性，并在本地存储指向这些属性的引用；
调用incrementToken（）：消费者不断调用incrementToken，获取下一个Token，直到返回错误；
end（）：消费者调用end（）表示token已经遍历完了，可以执行一些遍历结束时的操作；
close（）：释放相关资源；

我的理解：把Token当做建立索引时lucene可以处理的最小单元，而TokenStream是一个存储了一系列Token的流，当你需要使用时，一个一个从流中取出Token来处理。

四、进一步解释

为了确保消费者和过滤器知道哪些属性是可用的，这些属性必须在实例化时被添加进去。过滤器和消费者不小在incrementToken（）中检查这些属性的可用性；
应为TokenStream的API是基于装饰者模式的，因此所有的非抽象子类必须是final，或者至少有一个final修饰的incrementToken（）的实现方法！

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。