Lucene6.0分析（一）——数据分析接口

最新推荐文章于 2021-02-26 15:13:05 发布

技术客

最新推荐文章于 2021-02-26 15:13:05 发布

阅读量961

点赞数

分类专栏： Lucene 文章标签： Lucene

本文链接：https://blog.csdn.net/sunhaidong886/article/details/51517840

版权

Lucene 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Analyer作为数据分析的主要数据模型，他通过TokenStreams分析文本。也可以说它是从文本中提取索引字段的一种策略。为了实现分析的目的，内部采用 TokenStreamComponents组件进行实现。Analyzer本身集成自Closable接口，即调用Close方法，可以释放资源。该对象通过 tokenStream方法获取TokenStream对象。

TokenStream方法的处理流程先通过 reuseStrategy获取 TokenStreamComponents对象。如果对象为空，创建该对象，并根据字段设置Analyzer对象；如果对象不为空，则直接将Reader直接写入 TokenStreamComponents。

StandAnalyzer是作为标准的一个文本分析器，其处理的流程包括字符小写和停用词处理。而其中的路程处理上采用流式的管道处理。即首先将字符按照字符的分割规范将其处理为流式的字符流，根据字符处理流在进行大小写和停用词的处理。流程的处理需要StandardTokenizer和Tokenizer两个对象。StandardTokenizer是将是将输入字符转换为流式字符，其中具体的实施类为 StandardTokenizerImpl。管道处理类都继承自 TokenFilter，StandAnalyzer的流式处理采用 LowerCaseFilter和 StopFilter对象。处理完成后返回 TokenStreamComponents，Lucene根据TokenStreamComponenets构造索引字段。

技术客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene6.0分析（一）——数据分析接口

Analyer作为数据分析的主要数据模型，他通过TokenStreams分析文本。也可以说它是从文本中提取索引字段的一种策略。为了实现分析的目的，内部采用TokenStreamComponents组件进行实现。Analyzer本身集成自Closable接口，即调用Close方法，可以释放资源。该对象通过tokenStream方法获取TokenStream对象。 TokenStrea
复制链接

扫一扫