原创文章,码字不易,转载请注明作者及出处。非常感谢。
Written By: Xinyao Tian
简介
本文档简要介绍了位图 Bitmap 的概念,以及其在数据引擎的查询过程中起到加速作用的底层原理,并根据实践经验总结了部分适用场景。
何谓 Bitmap?
Bitmap 的定义 (Definition of Bitmap)
由英文即可看出,Bitmap 是一个合成词,由 Bit 和 Map 组合而成 (Bitmap = Bit + Map)。因此想要理解 Bitmap 就首先需要理解 Bit 和 Map。
Bit 的含义: 代表计算机科学中的最小单位 (即: 0 或 1),在逻辑上可以表示为 “是/否” 或 “有/无” (A bit is a basic unit of information used in computing that can have only one of two values either 0 or 1.);
Map 的含义: 表示一种组织事物的特定方式 (a map can be termed as a way of organizing things);
因此,作为合成词, Bitmap 的含义可以通过其基本词语组成单元清晰理解,即: 将一系列表示有无状态的二值组织起来的一种数据结构 (Bitmap is a kind of data structure that organizes a series of binary values that indicates the status of either existing or not – Definition given by the writter)。
通过案例了解 Bitmap
如果上述定义依旧显得非常抽象,则我们可以通过如下例子直观地理解 Bitmap 的作用。
案例 1: 查询新员工
给定一张雇员表,其中的 IsNewEmp
列表示该雇员是否为新入职的雇员,如下所示:
EmpNum | EmpName | JobTitle | IsNewEmp |
---|---|---|---|
1001 | Alice | Analyst | Yes |
1002 | Joe | Saler | No |
1003 | Katy | Manager | No |
1004 | Annie | Saler | Yes |
如果我们将 IsNewEmp
列进行 Bitmap Indexing,则我们就会得到一个由四位 Bit 组成的一张 Map,每一 Bit 位代表该雇员是否为新雇员 (1 为新雇员而 0 为老员工),如下所示:
IsNewEmp | Bitmap Indices |
---|---|
Yes | 1001 |
No | 0110 |
可以显而易见地发现,使用这种 Bitmap 数据结构建立的索引可以非常清晰快速地判断哪些员工是新员工,哪些员工是老员工。
案例 2: 查询职位类型
上述案例是 Bitmap 最简单的应用,即一列之中只有 Yes 或 No 两种情况 (列值仅有两种情况)。
同样地,针对略微复杂的情况,亦可进行 Bitmap Indexing。如下所示,我们将每个雇员的职位 JobTitle
进行 Bitmap Indexing,即可得到如下结果:
JobTitle | Bitmap Indices |
---|---|
Analyst | 1000 |
Manager | 0010 |
Saler | 0101 |
可以发现,针对拥有超过两个值的复杂情况 (比如本例中的职位类别),我们也可以将其转换为 Bitmap。
案例 3: 综合使用
现在,如果我们需要统计 既是新雇员同时又是销售 (Saler) 的员工,我们就可以借助 Bitmap 进行快速筛选了。
相应查询语句如下所示:
SELECT * FROM Employee
WHERE IsNewEmp = "Yes" and JobTitle = "Saler";
相比于没有进行 Bitmap Indexing 不得不逐行扫描的情况,现在我们就可以简单地将 IsNewEmp
和 JobTitle
两张 Bitmap 进行 “与” 操作,即可得到我们所需要的结果了,即: 将 IsNewEmp = "Yes"
的 1001
与 JobTitle = "Saler"
的 0101
这两张 Bitmap 进行 AND
运算,即可得到我们所需结果的 Bitmap 0001
,并根据这张结果 Bitmap 中 1
的位置,快速确定第四位员工 Annie 既是新雇员同时又是销售 (Saler)。
可以发现,相比于没有建立 Index 的逐行扫描情况,使用 Bitmap 进行索引的操作时间复杂度近乎为 O(1) (仅仅将两张 Bitmap 进行了一次‘与’操作),因此显著增加了查询的效率,降低了获取结果所需的时间。
Bitmap 的适用场景
低基数情况 (Low cardinality columns)
当所需查询的 Column 仅具备少量不同值 (e.g. 表示性别的列一般只有 2 种,即使在美国目前也至多只有 56 种) 时,使用 Bitmap 进行索引时非常合适的。这种情况下我们称之为 low cardinality (低基数情况)。
那么具体多少种情况算得上是 low cardinality 呢?根据 Oracle 的官方建议,在传统 DBMS 中较好实践为列值的种类低于 128 种,即为 low cardinality 情况。
不频繁更新的表 / 只读表 (Infrequently updated or read-only tables)
由于构建与存储 Bitmap 都需要大量的资源开销,因此 Bitmap 索引在数据治理中最适用于只读表或者不频繁更新的表,因此,我们经常能够在数据仓库的场景中发现 Bitmap Indexing 被广泛应用。
需要特别注意的是,如果在数据量很大且频繁更新的表 (特别时频繁并行更新的场景) 内使用 Bitmap Indexing,则极其有可能导致死锁,从而让整个数据库挂掉,请千万留意。
统计列值有多少种的场景 (Count Distinct)
由于 Bitmap 的底层原理导致其天生适用于统计某列中有多少种不同列值得情况,因此非常适用于 Count Distinct
这类数据场景,几乎一瞬间就能够查询出所需结果。
Bitmap 的实战应用: 建表语句示例
此处,我们使用 StarRocks 数据引擎并提供两类构建 Bitmap Indexing 的示例。
由于 StarRocks 是基于 MPP 架构的大数据场景中的数据引擎,因此不同于传统的 DBMS,其突破了传统 DBMS 对 Low cardinality 的限制,可以针对列值种类更多的情况进行 Bitmap Indexing 并从中受益。下面的示例语句就是 StarRocks 引擎基于用户唯一编码 user_id
进行的 Bitmap Indexing 提供的官方示例:
主键表 (Primary Key Table) 的 Bitmap Indexing 构建方法
如下为 StarRocks 数据引擎中主键表建立 Bitmap 的方法。注意目前该引擎 (v 2.5) 仅支持 INT
类型列进行 Bitmap Indexing,如果其他类型列 (e.g. String
) 需要进行该操作则需要先用 HASH 转换成 INT
类型数据。
CREATE TABLE `pv_bitmap` (
`dt` int(11) NULL COMMENT "",
`page` varchar(10) NULL COMMENT "",
`user_id` bitmap BITMAP_UNION NULL COMMENT ""
) ENGINE=OLAP
AGGREGATE KEY(`dt`, `page`)
COMMENT "OLAP"
DISTRIBUTED BY HASH(`dt`) BUCKETS 2;
聚合表 (Aggregate Table) 的 Bitmap Indexing 构建方法
如下为 StarRocks 数据引擎中聚合表建立 Bitmap 的方法。
CREATE TABLE primary_bitmap (
`tagname` varchar(65533) NOT NULL COMMENT "Tag name",
`tagvalue` varchar(65533) NOT NULL COMMENT "Tag value",
`userid` bitmap NOT NULL COMMENT "User ID")
ENGINE=OLAP
PRIMARY KEY(`tagname`, `tagvalue`)
COMMENT "OLAP"
DISTRIBUTED BY HASH(`tagname`) BUCKETS 1;
相关概念 (Related Concepts)
如下为部分与 Bitmap 相关的其他计算机概念,如感兴趣可深入了解:
- Bit / Byte (比特 / 字节)
- Bloom Filter (布隆过滤器)