![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Lucene/HibernateSearch
duguyiren3476
这个作者很懒,什么都没留下…
展开
-
lucene 分词原理
Lucene是一个高性能的 java 全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章 1 和 2 文章1 的内容为: Tom lives in Guangzhou,I live in Guangzhou too. 文章2 的内容为: He once lived in Shanghai. ...原创 2012-06-15 10:34:48 · 108 阅读 · 0 评论 -
lucene 分词原理2
建立索引和查询的过程中,都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。 分词在文本索引的建立过程和用户提交检索过程中都存在。利用相同的分词器,把短语或者句子切分成相同的结果,才能保证检索过程顺利进行。 1、 英文分词的原理 基本的处理流程是:输入文本、词汇分割、词汇过滤(去除停留词)、词干提取(形态还原)、大写转为小写、...原创 2012-06-15 16:15:02 · 79 阅读 · 0 评论