简单的说 ReplacingMergeTree 可以实现数据的 ‘修改’
修改的原理是merge的时候保留大版本号的数据。
创建 ReplacingMergeTree 引擎表
create table test.replacingTable (create_time Date, id UInt16, primaryKey String, version UInt16)
ENGINE=ReplacingMergeTree(version)
PARTITION BY toYYYYMM(create_time)
ORDER BY (primaryKey)
SETTINGS index_granularity = 8192;
插入模拟数据
insert into test.replacingTable (create_time, id, primaryKey, version) values ('2020-05-26', 1, 'hagrid', 10);
insert into test.replacingTable (create_time, id, primaryKey, version) values ('2020-05-26', 1, 'hagrid', 20);
insert into test.replacingTable (create_time, id, primaryKey, version) values ('2020-05-27', 1, 'hagrid', 30);
查询数据
select * from test.replacingTable
发现数据并没有修改
手动触发merge
optimize table test.replacingTable;
再次查询发现数据已经更新
ps: 发现一个有趣的现象,我在测试中发现,当使用批量插入数据的时候,哪怕手动触发了merge 数据也没有更新。
当我再次插入一条数据后执行merge,数据更新成功。
这里怀疑 ReplacingMergeTree 在执行merge操作的时候,对同一批来的数据有merge的策略,简单的说就是merge的操作懒执行,需要新数据插入作为事件驱动(怀疑未验证)。