对于不查询明细,只关心以维度进行汇总聚合结果的场景。如果只使用普通的
MergeTree 的话,无论是存储空间的开销,还是查询时临时聚合的开销都比较大。
ClickHouse 为了这种场景,提供了一种能够“预聚合”的引擎 SummingMergeTree
➢
案例演示
◼
创建表
![](https://i-blog.csdnimg.cn/blog_migrate/faa06df3ff69b22f71ae127da1ff2beb.png)
◼ 插入数据
◼
执行第一次查询
hadoop202 :) select * from t_order_smt;
![](https://i-blog.csdnimg.cn/blog_migrate/fd281044b93cb6a7876e3891c4cdc68c.png)
◼
手动合并
OPTIMIZE TABLE t_order_smt FINAL;
◼
再执行一次查询
hadoop202 :) select * from t_order_smt;
![](https://i-blog.csdnimg.cn/blog_migrate/e3619569ccaed757feac8f703b045acc.png)
➢
通过结果可以得到以下结论
◼
以 SummingMergeTree()中指定的列作为汇总数据列
◼
可以填写多列必须数字列,如果不填,以所有非维度列且为数字列的字段为汇总数
据列
◼
以 order by 的列为准,作为维度列
◼
其他的列按插入顺序保留第一行
◼
不在一个分区的数据不会被聚合
➢
开发建议
设计聚合表的话,唯一键值、流水号可以去掉,所有字段全部是维度、度量或者时间戳。
➢
问题
能不能直接执行以下 SQL 得到汇总值
select total_amount from XXX where province_name=’’ and
create_date=’xxx’
不行,可能会包含一些还没来得及聚合的临时明细
如果要是获取汇总值,还是需要使用 sum 进行聚合,这样效率会有一定的提高,但本身
ClickHouse 是列式存储的,效率提升有限,不会特别明显。
select sum(total_amount) from province_name=’’ and create_date=’xxx’