排序:
默认
按更新时间
按访问量
RSS订阅

索引构造

顾名思义这章就是要谈怎样构造索引的问题,或者说在有限内存和有限时间内,怎么样高效的对大数据集构造索引文件。一旦有了这个索引文件,那么索引的压缩,基于索引的排序,前面的章节都已经讲过。链接列表先来看看最一般的方法,在内存中构建这样的数据结构,包含一个term字典,这个字典本身可以用数组,hash表,...

2010-08-06 17:47:00

阅读数 1226

评论数 0

查询

查询 就是如何利用建好的索引来找到想要的文本,那么会介绍两种查询,一种是布尔查询(Boolean Query),另一种是排名查询(Ranked Query).布尔查询 包含了一个术语列表,这些术语通过布尔操作符相连(and,or,not),查询的答案是满足规定条件的文档。 布尔查询的缺点是会...

2010-07-23 16:41:00

阅读数 1742

评论数 1

索引

在这个信息爆炸的年代, 信息索引的重要性不言而喻。现在主要的索引结构就是倒排索引,又称为记录文件(posting file),词汇索引(concordance)。 其他的还有签名文件(signature file), 和 位图(bitmap)。 倒排索引在结构上分为,倒排列表(inverted...

2010-06-21 17:37:00

阅读数 877

评论数 0

Managing Gigabytes--文本压缩

开门见山,文本压缩可以归纳为两大类, 符号方法和字典方法, 下面分别介绍下:1)符号方法,symbolwise method普通编码方式是每个字符都采用相同位数编码, 比如asc码, 每个字符都是8位编码。那么现在要压缩,就是要用更少的位数来表示字符。显而易见, 我们只须用较小的位数来表示高概率字...

2010-05-31 15:51:00

阅读数 1946

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭