解决Clickhouse数据重复问题

最新推荐文章于 2022-10-31 23:03:34 发布

大数据架构师Pony

最新推荐文章于 2022-10-31 23:03:34 发布

阅读量1w

点赞数

分类专栏：大数据之Clickhouse 文章标签：数据库 clickhouse

本文链接：https://blog.csdn.net/u011110301/article/details/117531124

版权

大数据之Clickhouse 专栏收录该内容

34 篇文章 6 订阅

订阅专栏

问题描述：

原因：

解决：

问题描述：

使用MergeTree引擎建表，进行插入数据时，发现数据重复。

原因：

MergeTree的主键（PRIMARY KEY）只是用来生成一级索引（primary.idx）的，并没有唯一性约束这样的语义。

ReplacingMergeTree通过ORDER BY，表示判断唯一约束的条件。当分区合并之时，根据ORDER BY排序后，相邻重复的数据会被排除。

解决：

换用ReplacingMergeTree引擎建表

ReplacingMergeTree建表语法参考：（根据 id + code 分组去重）
create table replace_test(
        id String,
        code String,
        create_time DateTime
)ENGINE = ReplacingMergeTree()
PARTITION BY toYYYYMM(create_time)
ORDER BY (id,code)
PRIMARY key id;

优惠劵

大数据架构师Pony

关注关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
2
评论
解决Clickhouse数据重复问题

目录问题描述：原因：解决：问题描述：使用MergeTree引擎建表，进行插入数据时，发现数据重复。原因：MergeTree的主键（PRIMARYKEY）只是用来生成一级索引（primary.idx）的，并没有唯一性约束这样的语义。ReplacingMergeTree通过ORDERBY，表示判断唯一约束的条件。当分区合并之时，根据ORDERBY排序后，相邻重复的数据会被排除。解决：换用ReplacingMergeTree引擎建表ReplacingM...
复制链接

扫一扫