ElasticSearch核心概念-压缩算法

FOR- Frame of reference【适合比较稠密的数据,差值小】

100w条数据,1 int = 4 Bytes,则数据索引需约为4MB【太大了】

  • 【数据按+1递增】存储每个数与前一个数的差值【delta list】,则需100W bit【4MB=3200W bit】,压缩了32倍
  • 对于不规律的数组,可以将差值数组拆分为不同的数组分别存储【大的一块小的一块】【拆分多少靠代码动态计算】,对于小的数组只需要较少的比特数即可存储
  • 但不能划分太多数组,对每个数组都需要存储记录这个数组按几个比特存储【额外磁盘空间】,有点类似于操作系统段页表
    在这里插入图片描述

RBM- Roaring bitmaps

稀疏数组,差值大,delta list仍然很大,for压缩算法不适用

  • int类型不会超过216 * 216,让一组很大的稀疏数组除以216,其结果不会超过216,将每个数字换算成两个比较小的数字【除数,余数】
  • RBM使用container存储结果【低16位】,short类型(0,216)存储key值【除数】
  • ArrayContainer【有点像hashmap解决冲突的拉链法】
  • BitmapContainer【有点像位示图,该位所代表的数字是否有,0表示没有这个数字的值,1表示有】
    • 大于4096个BitmapContainer更省空间,小于用ArrayContainer
  • RunContainer【连续有序数组,用两个int类型即可描述【区间[1,100]】
    在这里插入图片描述

学习视频from B站马士兵

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值