建表时,支持定义排序键和指标列,并为指标列指定聚合函数。当多条数据具有相同的排序键时,指标列会进行聚合。在分析统计和汇总数据时,聚合表能够减少查询时所需要处理的数据,提升查询效率。
适用场景
- 适用于分析统计和汇总数据
在这些场景中,数据查询和导入,具有以下特点:
- 多为汇总类查询,比如 SUM、MAX、MIN等类型的查询。
- 不需要查询原始的明细数据。
- 旧数据更新不频繁,只会追加新的数据。
原理
数据导入至数据查询阶段,聚合表内部同一排序键的数据会多次聚合
- 数据导入阶段:数据按批次导入至聚合表时,每一个批次的数据形成一个版本。在一个版本中,同一排序键的数据会进行一次聚合。
- 后台文件合并阶段 (Compaction):数据分批次多次导入至聚合表中,会生成多个版本的文件,多个版本的文件定期合并成一个大版本文件时,同一排序键的数据会进行一次聚合。
- 查询阶段:所有版本中同一排序键的数据进行聚合,然后返回查询结果。
使用说明
-
在建表语句中,排序键必须定义在其他列之前。
-
排序键可以通过 AGGREGATE KEY 显式定义。
-
如果 AGGREGATE KEY 未包含全部维度列(除指标列之外的列),则建表会失败。 如果不通过 AGGREGATE KEY
显示定义排序键,则默认除指标列之外的列均为排序键。 排序键必须满足唯一性约束,必须包含全部维度列,并且列的值不会更新。 -
指标列:通过在列名后指定聚合函数,定义该列为指标列。一般为需要汇总统计的数据。
-
聚合函数:指标列使用的聚合函数。聚合表支持的聚合函数,请参见 CREATE TABLE。
举例:
CREATE TABLE IF NOT EXISTS example_db.aggregate_tbl (
site_id LARGEINT NOT NULL COMMENT "id of site",
date DATE NOT NULL COMMENT "time of event",
city_code VARCHAR(20) COMMENT "city_code of user",
pv BIGINT SUM DEFAULT "0" COMMENT "total page views" --指标列
)
AGGREGATE KEY(site_id, date, city_code)
DISTRIBUTED BY HASH(site_id)
PROPERTIES (
"replication_num" = "3"
);