Bitmap64为什么比bitmap32慢

TaiKuLaHa

已于 2022-12-20 23:15:25 修改

阅读量886

点赞数

分类专栏： clickhouse 文章标签： clickhouse

于 2022-12-20 20:36:12 首次发布

本文链接：https://blog.csdn.net/JH_Zhai/article/details/128389899

版权

clickhouse 专栏收录该内容

23 篇文章 2 订阅

订阅专栏

https://www.bilibili.com/video/BV1vU4y1q7KR/?spm_id_from=333.788&vd_source=fa36a95b3c3fa4f32dd400f8cabddeaf

在这里插入图片描述

原因跟 RoaringBitmap64 的实现有关，RoaringBitmap64 是由一系列 RoaringBitmap32 表示。实现方式有很多种，一种比较通用的做法用 map 存储，是把前 32 位存成 key，value 是后 32 所对应的 RoaringBitmap32，RoaringBitmap32 的实现如图中所示。
第一层称之为 Chunk（高 16 位），如果该取值范围内没有数据就不会创建 Chunk。
第二层称之为 Container（低 16 位），会依据数据分布进行创建。
RoaringBitmap32 使用两种容器结构： Array Container 和 Bitmap Container。Array Container 存放稀疏的数据，Bitmap Container 存放稠密的数据。若一个 Container 里面的元素数量小于 4096，就使用 Array Container；反之，就用 Bitmap 来存储值。
当数据比较稀疏的时候，我们发现一个人群包对应的 RoaringBitmap64 由很多个 RoaringBitmap32 组成，每个 RoaringBitmap32 内部又由很多个 array container 组成。而对有序数组的交并补计算尽管也比较高效，但是相比于 bitmap 计算来说还是有明显的差异。这样导致计算性能提升不上去。因此我们就在想，能不能通过编码的方式，对区间内的数据进行编码，让数据更加集中，从而提升计算效率。事实上我们也是这么做的，我们实现了一种高效的编码，希望达到如下效果：

编码后同一个区间内的用户相对集中
不同区间的用户编码后同样在不同的区间内
编码后同一个人群包同一个区间内的用户 id 相对集中

通过编码，能够非常好地加速计算，计算速度提升 1~2 个量级

作者：字节跳动技术团队
链接：https://juejin.cn/post/6859570827051368462
来源：稀土掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

TaiKuLaHa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bitmap64为什么比bitmap32慢

https://www.bilibili.com/video/BV1vU4y1q7KR/?spm_id_from=333.788&vd_source=fa36a95b3c3fa4f32dd400f8cabddeaf
复制链接

扫一扫