FOR- Frame of reference【适合比较稠密的数据,差值小】
100w条数据,1 int = 4 Bytes,则数据索引需约为4MB【太大了】
- 【数据按+1递增】存储每个数与前一个数的差值【delta list】,则需100W bit【4MB=3200W bit】,压缩了32倍
- 对于不规律的数组,可以将差值数组拆分为不同的数组分别存储【大的一块小的一块】【拆分多少靠代码动态计算】,对于小的数组只需要较少的比特数即可存储
- 但不能划分太多数组,对每个数组都需要存储记录这个数组按几个比特存储【额外磁盘空间】,有点类似于操作系统段页表
RBM- Roaring bitmaps
稀疏数组,差值大,delta list仍然很大,for压缩算法不适用
- int类型不会超过216 * 216,让一组很大的稀疏数组除以216,其结果不会超过216,将每个数字换算成两个比较小的数字【除数,余数】
- RBM使用container存储结果【低16位】,short类型(0,216)存储key值【除数】
- ArrayContainer【有点像hashmap解决冲突的拉链法】
- BitmapContainer【有点像位示图,该位所代表的数字是否有,0表示没有这个数字的值,1表示有】
- 大于4096个BitmapContainer更省空间,小于用ArrayContainer
- RunContainer【连续有序数组,用两个int类型即可描述【区间[1,100]】
学习视频from B站马士兵