![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
lemur
spche
这个作者很懒,什么都没留下…
展开
-
Lemur生成索引
2.2生成索引 Lemur Toolkit建立对XML文档建立索引的过程,和其它检索系统很相似,主要分为文档的解析,去除stopword和取词根,统计tf,存入硬盘。过程如图一所示。 2.2.1 TextTokenizer 这部分是把XML文档拆分成对应的单词和元素结点的集合,生成的结构体为TokenizedDocument。其中单词是存在向量terms中,对应的位置是通过原创 2010-01-12 16:10:00 · 1858 阅读 · 2 评论 -
Lemur的参数文件
Lemur Toolkit是一个新兴的实验系统。它由卡耐基-梅隆大学(CMU)开发,在2001年公布了第一个公开的版本,目前最新版本是4.6。其特点是在检索中引入了语言模型,更重要的是,它不仅是一个完整的检索系统,而且是以工具包的形式提供的。各功能模块都有良好的封装,并提供清晰的源代码和丰富的文档说明,研究者使用它搭建自己的实验系统易如反掌。 Lemur Toolkit的设计目标是促进和帮助在原创 2010-01-12 16:11:00 · 2782 阅读 · 2 评论 -
Lemur的检索过程
Lemur的检索过程如下图所示,主要包括语句的解析,索引的查找,打分和排序三个部分,具体过程如图四所示。 查询执行是按以下步骤执行的:1. 根据查询语句中要查询的单词term去frequentString或infrequentString中找出倒排索引在invertedFile中的起始位置和长度。2. 根据1中得到的invertedFile中的起始位置原创 2010-01-12 16:01:00 · 1249 阅读 · 0 评论 -
Lemur的查询执行
语言模型 语言模型假设每个XML文档都会产生一个不同的模型,这个假设可以充许对每个XML文档运用统计原理来评估它的模型以及为每个XML文档打分。我们把每个XML文档看成是一组单词的序列,每个XML文档的语言模型是一组单词集合的概率分布。在大部分的时候,XML文档的概率分布被认为是多维的,例如,多维柏努利概率分布。一种简单而有效的计算单词w出现在XML文档的概率的方法是P(w |D):原创 2010-01-12 16:02:00 · 975 阅读 · 0 评论 -
Lemur的disk index
Manifest主要保存索引的XML文档集的统计信息和索引的元素结点的统计信息。一个示例如下: Apr 10 2008 1 2 9 8 35231 5799原创 2010-01-12 16:03:00 · 1132 阅读 · 0 评论 -
Lemur的Disk Index 一
Disk Index主要是把Memory Index存储到硬盘上的文件组织。它由一系列的物理文件组成。存储方式主要有Bulk tree和普通文件,XML三种类型。 Bulk tree是Btree的一种简化形式,相当于静态的Btree,Key可以为字符串或整数,Value是一个指定长度的字符数组,大小不能大于8K,在Bulk tree的实现代码中没有结点的分裂和合并算法,所以插入时必须把要原创 2010-01-12 16:08:00 · 1281 阅读 · 0 评论