ClickHouse的数据一致性（七）

最新推荐文章于 2024-05-20 12:44:11 发布

Java技术债务

最新推荐文章于 2024-05-20 12:44:11 发布

阅读量2.1k

点赞数 1

分类专栏：数据库 ClickHouse Java 文章标签：大数据数据库

本文链接：https://blog.csdn.net/qq_40124555/article/details/122044294

版权

Java 同时被 3 个专栏收录

103 篇文章 5 订阅

订阅专栏

数据库

22 篇文章 0 订阅

订阅专栏

ClickHouse

14 篇文章 4 订阅

订阅专栏

文章目录

数据一致性的方案

查询 CK 手册发现，即便对数据一致性支持最好的 Mergetree，也只是保证最终一致性:

1手动使用OPTIMIZE
2 通过 Group by 去重
3 通过 FINAL 查询

我们在使用 ReplacingMergeTree、SummingMergeTree 这类表引擎的时候，会出现短暂
数据不一致的情况。在某些对一致性非常敏感的场景，通常有以下几种解决方案。

1 手动使用OPTIMIZE（强烈不建议生产上使用）

在写入数据后，立刻执行 OPTIMIZE 强制触发新写入分区的合并动作。

OPTIMIZE TABLE table_name FINAL;

语法:OPTIMIZE TABLE [db.]name [ON CLUSTER cluster] [PARTITION partition | PARTITION ID 'partition_id'] [FINAL] [DEDUPLICATE [BY expression]]

2 通过 Group by 去重

此方法通常需要在创建表时，添加删除标识字段：比如is_deleted，默认为0，0代表未删除，1代表已删除；并且需要以时间为索引进行order by排序。

(1)执行去重的查询

SELECT
	user_id ,
  	argMax(score, create_time) AS score,
  	argMax(is_deleted, create_time) AS deleted,
  	max(create_time) AS ctime
FROM test_a
GROUP BY user_id
HAVING deleted = 0;