之前写过一篇 bitmap 应用场景的文章https://blog.csdn.net/maray/article/details/136923316
本文介绍 bitmap 的原理:
下面有三张表:user_info_base
, user_prefer
, user_device
,我们希望查询“喜欢电子产品并且使用iPhone的女性用户”,高效的实现方式是:
- 对 gender 列、category 列、device_type 列分别建三个 bitmap 索引
- 索引的 key 是属性值,value 是一个 bitmap
- 我们将 bitmap 取出来,做交集,就能得到上面希望的查询结果
另一个例子:
可以看到,bitmap index 的关键是对主表的每一行做一个唯一编号。编号越稠密,可以让 bitmap 位数更少,如果编号稀疏,则会导致 bitmap 膨胀。
为了尽可能解决稀疏编号导致的 bitmap 膨胀,引入了 RoaringBitmap。