Clickhouse 实时分析优化AggregateFunction及物化视图

AggregateFunction
AggregatingMergeTree就有些许数据立方体的意思,它能够在合并分区的时候,按照预先定义的条 件,聚合数据。同时,根据预先定义的聚合函数,计算数据并通过二进制的格式存入表内。将同一分组 下的多行数据,聚合成一行,既减少了数据行,又降低了后续聚合查询的开销。

-- 建表语句
CREATE TABLE agg_table( 
    id String,
    city String,
    code AggregateFunction(uniq,String), 
    value AggregateFunction(sum,UInt32), 
    create_time DateTime
)
ENGINE = AggregatingMergeTree() 
PARTITION BY toYYYYMM(create_time) 
ORDER BY (id,city)
PRIMARY KEY id

其中的uniq、sum是指定的聚合函数。大家可以在官网aggregate-functions 下查看更多的相关函数。
AggregateFunction是ClickHouse提供的一种特殊的数据类型,它能够以二进制的形式存储中间状态结 果。其使用方法也十分特殊,对于AggregateFunction类型的列字段,数据的写入和查询都与寻常不同。在写入数据时,需要调用State函数。而在查询数据时,则需要调用相应的Merge函数。
例如:在写入数据时需要调用与uniq、sum对应的uniqState和sumState函数,并使用INSERT SELECT 语法:

-- 写入测试数据id = A000, code相同;
INSERT INTO TABLE agg_table SELECT 'A000','test', uniqState('code1'), sumState(toUInt32(100)), '2019-08-10 17:00:00';
 INSERT INTO TABLE agg_table SELECT 'A000','test', uniqState('code1'), sumState(toUInt32(100)), '2019-08-10 17:00:00';
-- 写入测试数据id = A001, code不同;
 
 INSERT INTO TABLE agg_table SELECT 'A001','test', uniqState('code1'), sumState(toUInt32(100)), '2019-08-10 17:00:00';
  INSERT INTO TABLE agg_table SELECT 'A001','test', uniqState('code2'), sumState(toUInt32(50)), '2019-08-10 17:00:00';

而在查询数据时,如果直接使用列名访问code和value,将会是无法显示的二进制。此时,则需要调用 与uniq、sum对应的uniqMerge、sumMerge函数:

 SELECT id,city,uniqMerge(code),sumMerge(value) FROM agg_table GROUP BY id,city;
 
┌─id───┬─city─┬─uniqMerge(code)─┬─sumMerge(value)─┐
│ A001 │ test │               2 │             150 │
│ A000 │ test │               1 │             200 │
└──────┴──────┴─────────────────┴─────────────────┘

2 rows in set. Elapsed: 0.002 sec. 

可以看到id = A000 的uniqMerge(code) 为1、可见uniq函数是生效的。
但是你是否会认为AggregatingMergeTree使用起来过于繁琐呢?连正常进行数据写入都行不 通,还需要借助INSERT…SELECT的句式并调用特殊函数。如果直接像刚才示例中那样使用 AggregatingMergeTree,确实会非常的麻烦。不过各位读者并不需要忧虑,因为目前介绍的这种使用方式,并不是它的主流用法。

物化视图
AggregatingMergeTree更为常⻅的应用方式,是结合物化视图使用,将它作为物化视图的表引擎。而 这里的物化视图,则是作为其他数据表上层的一种查询视图。现在用一组示例说明它的用法,首先,建立明细数据表,也就是俗称的底表。

 
CREATE TABLE agg_table_basic( id String,
    city String,
    code String,
    value UInt32
)ENGINE = MergeTree() PARTITION BY city ORDER BY (id,city)

通常会使用MergeTree作为底表,用于存储全􏰁的明细数据,并以此对外提供实时查询。接着,新建一 张物化视图:

 
CREATE MATERIALIZED VIEW agg_view 
ENGINE = AggregatingMergeTree() 
PARTITION BY city
ORDER BY (id,city)
AS SELECT id,
    city,
    uniqState(code) AS code,
    sumState(value) AS value
FROM agg_table_basic GROUP BY id, city;

物化视图使用AggregatingMergeTree表引擎,用于特定场景的数据查询,相比MergeTree它拥有更高 的性能。
在新增数据时,面向的对象是底表MergeTree:

 INSERT INTO TABLE agg_table_basic VALUES
  ('A000','wuhan','code1',100),
  ('A000','wuhan','code2',200),
  ('A000','zhuhai','code1',200);

数据会自动同步到物化视图,并按照AggregatingMergeTree引擎的规则处理。 在查询数据时,面向的对象则是物化视图AggregatingMergeTree:

 
SELECT id, sumMerge(value), uniqMerge(code) FROM agg_view GROUP BY id, city;

┌─id───┬─sumMerge(value)─┬─uniqMerge(code)─┐
│A000│ 200 │ 1 │
│A000│ 300 │ 2 │ 
└──────┴───────────────┴───────────────┘

接下来,简单梳理一下AggregatingMergeTree的处理逻辑:

使用ORBER BY排序键,作为聚合数据的条件Key;
使用AggregateFunction字段类型,定义聚合函数的类型以及聚合的字段;
只有在合并分区的时候,才会触发聚合计算的逻辑;
以数据分区为单位,聚合数据。当分区合并时,同一数据分区内,聚合Key相同的数据,会合并计 算;而不同分区之间,那些跨越分区的数据,则不会被计算;
在进行数据计算时,因为分区内的数据已经基于ORBER BY排序,所以能够找到那些相邻的,拥有 相同聚合Key的数据;
在聚合数据时,同一分区内,相同聚合Key的多行数据,会合并成一行。对于那些非主键、非 AggregateFunction类型字段,则会使用第一行数据的取值;
AggregateFunction类型的字段使用二进制存储,在写入数据时,需要调用State函数;而在查询 数据时,则需要调用相应的Merge函数。其中,*表示定义时使用的聚合函数;
AggregatingMergeTree通常作为物化视图的表引擎,与普通MergeTree搭配使用。
物化视图完整语法:

 CREATE [MATERIALIZED] VIEW [IF NOT EXISTS] [db.]table_name [TO[db.]name] 
 [ENGINE = engine] [POPULATE] AS SELECT ...
1
2
当物化视图创建之后,如果源表被写入了新数据,那么物化视图也会同步更新。POPULATE修饰符决定 了物化视图的初始化策略:如果使用了POPULATE修饰符,那么在创建视图的过程中,会连带将源表中 已存在的数据一并导入,如同执行了SELECT INTO一般;反之,如果不使用POPULATE修饰符,那么物 化视图在创建之后是没有数据的,它只会同步在此之后被写入源表的:
数据。物化视图目前并不支持同步删除,如果在源表中删除了数据,物化视图的数据仍会保留。 物化视图本质上是一张特殊的数据表,例如使用SHOW TABLE查看数据表的列表:

 
SHOW TABLES; 

┌─name────────┐
│ .inner.view_test2 │ │ .inner.view_test3 │ 
└───────────┘

原理
上述的AggregateFunction底层原理是使用的预计算,也就是每写入一批数据,trigger就会触发一次计算结果更新视图。所以在海量数据的场景下这种查询效率也是非常高的。

参考:《clickHouse原理解析与开发实践》
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/yyoc97/article/details/107800587

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值