【原创】啥是位图 (Bitmap) 有啥用? - Bitmap (位图) 与其在数据领域提升查询性能的底层原理

原创文章,码字不易,转载请注明作者及出处。非常感谢。

Written By: Xinyao Tian

简介

本文档简要介绍了位图 Bitmap 的概念,以及其在数据引擎的查询过程中起到加速作用的底层原理,并根据实践经验总结了部分适用场景。

何谓 Bitmap?

Bitmap 的定义 (Definition of Bitmap)

由英文即可看出,Bitmap 是一个合成词,由 Bit 和 Map 组合而成 (Bitmap = Bit + Map)。因此想要理解 Bitmap 就首先需要理解 Bit 和 Map。

Bit 的含义: 代表计算机科学中的最小单位 (即: 0 或 1),在逻辑上可以表示为 “是/否” 或 “有/无” (A bit is a basic unit of information used in computing that can have only one of two values either 0 or 1.);

Map 的含义: 表示一种组织事物的特定方式 (a map can be termed as a way of organizing things);

因此,作为合成词, Bitmap 的含义可以通过其基本词语组成单元清晰理解,即: 将一系列表示有无状态的二值组织起来的一种数据结构 (Bitmap is a kind of data structure that organizes a series of binary values that indicates the status of either existing or not – Definition given by the writter)。

通过案例了解 Bitmap

如果上述定义依旧显得非常抽象,则我们可以通过如下例子直观地理解 Bitmap 的作用。

案例 1: 查询新员工

给定一张雇员表,其中的 IsNewEmp 列表示该雇员是否为新入职的雇员,如下所示:

EmpNumEmpNameJobTitleIsNewEmp
1001AliceAnalystYes
1002JoeSalerNo
1003KatyManagerNo
1004AnnieSalerYes

如果我们将 IsNewEmp 列进行 Bitmap Indexing,则我们就会得到一个由四位 Bit 组成的一张 Map,每一 Bit 位代表该雇员是否为新雇员 (1 为新雇员而 0 为老员工),如下所示:

IsNewEmpBitmap Indices
Yes1001
No0110

可以显而易见地发现,使用这种 Bitmap 数据结构建立的索引可以非常清晰快速地判断哪些员工是新员工,哪些员工是老员工。

案例 2: 查询职位类型

上述案例是 Bitmap 最简单的应用,即一列之中只有 Yes 或 No 两种情况 (列值仅有两种情况)。

同样地,针对略微复杂的情况,亦可进行 Bitmap Indexing。如下所示,我们将每个雇员的职位 JobTitle 进行 Bitmap Indexing,即可得到如下结果:

JobTitleBitmap Indices
Analyst1000
Manager0010
Saler0101

可以发现,针对拥有超过两个值的复杂情况 (比如本例中的职位类别),我们也可以将其转换为 Bitmap。

案例 3: 综合使用

现在,如果我们需要统计 既是新雇员同时又是销售 (Saler) 的员工,我们就可以借助 Bitmap 进行快速筛选了。

相应查询语句如下所示:

SELECT * FROM Employee 
WHERE IsNewEmp = "Yes" and JobTitle = "Saler";

相比于没有进行 Bitmap Indexing 不得不逐行扫描的情况,现在我们就可以简单地将 IsNewEmpJobTitle 两张 Bitmap 进行 “与” 操作,即可得到我们所需要的结果了,即: 将 IsNewEmp = "Yes"1001JobTitle = "Saler"0101 这两张 Bitmap 进行 AND 运算,即可得到我们所需结果的 Bitmap 0001,并根据这张结果 Bitmap 中 1 的位置,快速确定第四位员工 Annie 既是新雇员同时又是销售 (Saler)。

可以发现,相比于没有建立 Index 的逐行扫描情况,使用 Bitmap 进行索引的操作时间复杂度近乎为 O(1) (仅仅将两张 Bitmap 进行了一次‘与’操作),因此显著增加了查询的效率,降低了获取结果所需的时间。

Bitmap 的适用场景

低基数情况 (Low cardinality columns)

当所需查询的 Column 仅具备少量不同值 (e.g. 表示性别的列一般只有 2 种,即使在美国目前也至多只有 56 种) 时,使用 Bitmap 进行索引时非常合适的。这种情况下我们称之为 low cardinality (低基数情况)

那么具体多少种情况算得上是 low cardinality 呢?根据 Oracle 的官方建议,在传统 DBMS 中较好实践为列值的种类低于 128 种,即为 low cardinality 情况。

不频繁更新的表 / 只读表 (Infrequently updated or read-only tables)

由于构建与存储 Bitmap 都需要大量的资源开销,因此 Bitmap 索引在数据治理中最适用于只读表或者不频繁更新的表,因此,我们经常能够在数据仓库的场景中发现 Bitmap Indexing 被广泛应用。

需要特别注意的是,如果在数据量很大且频繁更新的表 (特别时频繁并行更新的场景) 内使用 Bitmap Indexing,则极其有可能导致死锁,从而让整个数据库挂掉,请千万留意。

统计列值有多少种的场景 (Count Distinct)

由于 Bitmap 的底层原理导致其天生适用于统计某列中有多少种不同列值得情况,因此非常适用于 Count Distinct 这类数据场景,几乎一瞬间就能够查询出所需结果。

Bitmap 的实战应用: 建表语句示例

此处,我们使用 StarRocks 数据引擎并提供两类构建 Bitmap Indexing 的示例。

由于 StarRocks 是基于 MPP 架构的大数据场景中的数据引擎,因此不同于传统的 DBMS,其突破了传统 DBMS 对 Low cardinality 的限制,可以针对列值种类更多的情况进行 Bitmap Indexing 并从中受益。下面的示例语句就是 StarRocks 引擎基于用户唯一编码 user_id 进行的 Bitmap Indexing 提供的官方示例:

主键表 (Primary Key Table) 的 Bitmap Indexing 构建方法

如下为 StarRocks 数据引擎中主键表建立 Bitmap 的方法。注意目前该引擎 (v 2.5) 仅支持 INT 类型列进行 Bitmap Indexing,如果其他类型列 (e.g. String) 需要进行该操作则需要先用 HASH 转换成 INT 类型数据。

CREATE TABLE `pv_bitmap` (
`dt` int(11) NULL COMMENT "",
`page` varchar(10) NULL COMMENT "",
`user_id` bitmap BITMAP_UNION NULL COMMENT ""
) ENGINE=OLAP
AGGREGATE KEY(`dt`, `page`)
COMMENT "OLAP"
DISTRIBUTED BY HASH(`dt`) BUCKETS 2;

聚合表 (Aggregate Table) 的 Bitmap Indexing 构建方法

如下为 StarRocks 数据引擎中聚合表建立 Bitmap 的方法。

CREATE TABLE primary_bitmap (
`tagname` varchar(65533) NOT NULL COMMENT "Tag name",
`tagvalue` varchar(65533) NOT NULL COMMENT "Tag value",
`userid` bitmap NOT NULL COMMENT "User ID")
ENGINE=OLAP
PRIMARY KEY(`tagname`, `tagvalue`)
COMMENT "OLAP"
DISTRIBUTED BY HASH(`tagname`) BUCKETS 1;

相关概念 (Related Concepts)

如下为部分与 Bitmap 相关的其他计算机概念,如感兴趣可深入了解:

  • Bit / Byte (比特 / 字节)
  • Bloom Filter (布隆过滤器)

References

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值