Lucene--TokenStream（TokenFilter、Tokenizer）

最新推荐文章于 2024-05-19 10:11:32 发布

阿肥猪

最新推荐文章于 2024-05-19 10:11:32 发布

阅读量1.4k

点赞数

分类专栏： Lucene

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Love_xmei/article/details/48375541

版权

Lucene 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

TokenStream即是从Document的域（field）中或者查询条件中抽取一个个分词而组成的一个数据流。继承TokenStream的类必须是final类型的，或者至少increamStoken的方法是final的，TokenStream是抽象类，两个子类如下：

TokenFilter：输入参数为另一个TokerStream的TokerStream，这是一个抽象类，其子类必须覆盖TokenStream.incrementToken()函数

Tokenizer：输入为Reader的TokenStream，这是抽象类，其子类必须实现incrementToken()函数。注意：子类覆盖TokenStream.incrementToken()时，在设置attributes 必须调用AttributeSource中的clearAttributes()方法。

TokenStream的工作流程：

1、实例化Tokenizer或TokenFilter,，添加属性到AttributeSource，或从AttributeSource中获取属性。

2、调用reset()方法

3、从流中和存储本地引用检索想要访问所有属性

4、调用increamStoken()方法，直到返回false

5、调用end（）方法执行任何end-of-stream操作

6、调用close()方法在结束使用TokerStream释放一些资源

end()、reset()、close()的覆盖通常要调用super.end()、super.reset()、super.close()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Lucene--TokenStream（TokenFilter、Tokenizer）

TokenStream即是从Document的域（field）中或者查询条件中抽取一个个分词而组成的一个数据流。继承TokenStream的类必须是final类型的，或者至少increamStoken的方法是final的，TokenStream是抽象类，两个子类如下：Tokenizer：输入为Reader的TokenStreamTokenFilter：输入参数为另一个TokerStre
复制链接

扫一扫

专栏目录

阿肥猪 CSDN认证博客专家 CSDN认证企业博客

码龄9年

8: 原创

49万+: 周排名

168万+: 总排名

6748: 访问

: 等级

153: 积分

0: 粉丝

0: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

分类专栏

Lucene 8篇

最新评论

Lucene--TokenStream（TokenFilter、Tokenizer）
weixin_41550207: 只有incrementToken方法

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。