Lucene
lucene基本原理与应用
AlferWei
一个奋斗在编程路上的程序员。
展开
-
Lucene文件格式简介
1、定义Lucene中基本的概念包括index、document、field、term。一个index包含一系列的documents; 一个document包含一系列的fields; 一个field包含一系列的terms; 一个term是一系列的bytes;2、分段Lucene索引可能由多个分段(segment)组成,每个分段是完全独立的,可以独立的执行搜索。有两种情况产生新的...原创 2020-03-12 17:58:14 · 706 阅读 · 0 评论 -
Lucene的总体架构
在Lucene in action中,Lucene 的构架和过程如下图,让我们更细一些看Lucene的各组件:那么如何应用这些组件呢?让我们再详细到对Lucene API 的调用实现索引和搜索过程。以上便是Lucene API函数的简单调用。然而当进入Lucene的源代码后,发现Lucene有很多包,关系错综复杂。然而通过下图,我们不难发现,Lucene的各源码模块,都是对普通索引和搜索过程的一种...转载 2018-02-12 06:20:12 · 400 阅读 · 0 评论 -
Lucene工作原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章...转载 2018-02-12 05:00:59 · 314 阅读 · 0 评论 -
谈谈分词
语言模型与词中文分词方法的演变查字典最少词数分词法最大词数分词法优缺点基于统计语言模型的分词如何衡量分词的结果分词的一致性词的颗粒度和层次原理和实现参考语言模型与词语言模型是建立在词的基础上的,而词是表达语意的最小单元。中文分词方法的演变查字典实际就是把一个句子从左到右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如“上海大学”)就找最长的词匹配,遇到不认识的字串就分割原创 2017-08-02 00:07:12 · 1023 阅读 · 0 评论