lucene
ggy101600
这个作者很懒,什么都没留下…
展开
-
深入浅出Lucene Analyzer
想要了解更多,加QQ群72132378 Analyzer,或者说文本分析的过程,实质上是将输入文本转化为文本特征向量的过程。这里所说的文本特征,可以是词或者是短语。它主要包括以下四个步骤: 分词,将文本解析为单词或短语归一化,将文本转化为小写停用词处理,去除一些常用的、无意义的词提取词干,解决单复数、时态语态等问题 Lucene Analyzer包含两个核心组件,T转载 2017-01-21 17:26:11 · 478 阅读 · 0 评论 -
Lucene的分析过程
想要了解更多,加QQ群72132378 回顾倒排索引的构建 收集待建索引的原文档(Document)将原文档传给词条化工具(Tokenizer)进行文本词条化将第二步得到的词条(Token)传给语言分析工具(Linguistic modules)进行语言学预处理,得到词项(Term)将得到的词项(Term)传给索引组件(Indexer),建立倒排索引 注:转载 2017-01-21 17:28:07 · 482 阅读 · 0 评论 -
Lucene中TokenStream,Tokenizer,TokenFilter,TokenStreamComponents与Analyzer
想要了解更多,加QQ群72132378 TokenStream extends AttributeSource implements Closeable: incrementToken,end,reset,close Tokenizer直接继承至TokenStream,其输入input是一个reader TokenFilter也直接继承TokenStream,但input是一个TokenS转载 2017-01-21 17:32:09 · 448 阅读 · 0 评论