一.ReplacingMergeTree (他能保证最终的一致性)
ReplacingMergeTree 是 MergeTree的一个变种, 它存储特性完全继承MergeTree,只是多了一个去重的功能,尽管MergeTree 可以设置主键,但是 primary key 其实没有唯一约束的功能,如果你想要处理掉重复的数据,可以借助这个 ReplacingMergeTree
去重的时机:
数据的去重只会在合并的过程中出现,合并会在未知的时间在后台进行,所有你无法预测先做出计划,有一些数据可以仍未被处理
去重范围:
如果表经过了分区,去重只会在分区内部进行去重,不能执行跨分区的去重
所有ReplacingMergeTree能力有限,ReplacingMergeTree适用于在后台清除重复
建表语句:
create table t_order_rmt(
id UInt32,
sku_id String,
total_amount Decimal(16,2),
create_time Datetime
) engine = ReplacingMergeTree(create_time)
========================================================
ReplacingMergeTree 填入的参数为版本字段,重复的数据保留版本字段值最大的
这里可以不填,如果不填,默认按照插入的顺序保留最好一条数据
=========================================================
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id,sku_id);
插入数据:
结果:
然后我们二次插入数据:
我们可以看到有两条重复的数据,当我们再查看这张表的时候:
这里它们都存在不同的分区这里就是我们上面所说的去重时机
然后我们手动合并一次:
通过这次测试我们可以得到结论:
1.去重并不能跨分区
2.只有合并分区才会进行去重
3.认定重复的数据保存,版本字段值最大的保留
4.如果版本字段相同则按插入顺序保留最后一次的数据
二.SummingMergeTree
对于不查询明细,只关心以维度进行汇总聚合结果的场景,如果只使用普通的MergeTree的话.无论是存储空间的开销,还是查询时临时聚合的开销都比较大.
ClickHouse 为了这种场景,提供了一种能够"预聚合"的引擎 SummingMergeTree
它时分区内聚合和分片合并时才会聚合
建表语句:
create table t_order_smt(
id UInt32,
sku_id String,
total_amount Decimal(16,2),
create_time Datetime
) engine = SummingMergeTree(total_amount)
=========================================================================
SummingMergeTree 后填写的时聚合字段,可以多填,它会根据order by 为依据进行聚合
=========================================================================
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id,sku_id);
插入数据:
结果:
通过结果我们可以得到一下结论:
1.以 SummingMergeTree 中指定的列作为汇总数据列
2.可以填写多列,但需要注意必须是数字列,如果不填,以所有非维度列且数字列的字段为汇总数据列
3.以order by 的列为准,作为维度列
4.其他的列插入顺序保留第一行
5.不在一个分区的数据不会被聚合
6.只有在同一批次插入或分片合并时才会进行聚合
根据第6点也有了一个注意点 在查询的时候如果多次插入了数据 我们并不能直接进行全表查询 因为可以会包含一些还没有来的及聚合的临时明细数据 这里我们再插入一次数据进行展示:
所有我们需要在查询前进行一次手动的合并,当然我们最好还是在查询的时候使用sum进行一次聚合,这样效率会有一定的提高,
这里我们学习完两个表引擎以后我们得到一下结论:
eplacingMergeTree 优点:
它能保证数据最终的一致性
缺点:
如果不是同一批次插入的 差的时候没有进行合并的时候 数据是存到重复的
SummingMergeTree 优缺点:
聚合查询的时候使用十分具有优势 但是它不能保证数据的幂等性 ;
所有我们在后续使用的时候要慎重选择,按当时的使用场景选择真正需要的一个!