索引压缩

最新推荐文章于 2024-05-24 15:31:29 发布

klaas

最新推荐文章于 2024-05-24 15:31:29 发布

阅读量500

点赞数

分类专栏：信息检索文章标签：信息检索索引压缩

本文链接：https://blog.csdn.net/klaas/article/details/53048018

版权

4 篇文章 0 订阅

订阅专栏

统计特性

Naive方法
每个词20B，文档频率4B（32位的数字），地址指针4B（32位的系统可访问4G地址空间）
总共占用的存储空间为 $M\times (20 + 4 + 4)$
词典看成单一字符串

英语中term的平均长度是8B。如上图，所有term变成一个长的字符串，使用位置指针，在term的存储上节省了12B，额外使用一个指针。
假如数据库中有400 000 个term，地址空间为 $400 000 \times 8 = 3.2 \times 10^6$ ，用一个指针 $Log_2 3.2\times 10 ^6 = 22 bit = 3 B$
文档频率/倒排记录表指针/词项指针 = 4B/4B/3B。
故需要的空间是 $400 000 \times (4 + 4 + 3 + 8) = 7.6 MB$ ，比原来节省了很多。
按块存储

为了减少词项指针，选择 $k$ 个词项共用一个指针，并且用一个数字记录每个词项的大小，故对于每个块，可以减少 $k-1$ 个词项指针，但需要 $k$ B的空间来存储词项长度。
如前面的数据库，可以每个块可以减少 $(k-1)\times 3 = 9B$ ，但需要增加 $k=4B$ 来存储词项长度，所以一个块能节省 $5 B$ 。总共能节省下的空间是 $400 000 \times 1/4 \times 5 = 0.5 MB$ 。