ClickHouse创建分布式表

最新推荐文章于 2024-05-29 15:37:20 发布

m0_74823264

最新推荐文章于 2024-05-29 15:37:20 发布

阅读量495

点赞数

分类专栏：面试学习路线阿里巴巴资料职业发展文章标签： clickhouse 分布式后端

本文链接：https://blog.csdn.net/m0_74823264/article/details/133722483

版权

ClickHouse创建分布式表

当数据量剧增的时候，clickhouse是采用分片的方式进行数据的存储的，类似于redis集群的实现方式。然后想进行统一的查询的时候，因为涉及到多个本地表，可以通过分布式表的方式来提供统一的入口。由于是涉及到分布式存储，保证高可用就必须有数据冗余—即副本(replica)。Clickhouse依靠ReplicatedMergeTree引擎族与Zookeeper实现了复制表机制，成为其高可用的基础。该引擎和 MergeTree 的不同之处在于它会删除排序键值相同的重复项。

同时，Clickhouse具有数据分片（shard）的概念，这也是分布式存储的特点之一，即通过并行读写提高效率。ClickhouseHouse依靠Distributed引擎实现了分布式表机制，在所有分片（本地表）上建立视图进行分布式查询。

本文使用ReplicatedMergeTree和Distributed引擎来构建Clickhouse的分布式表。分布式表包括了逻辑表和物理表，逻辑表主要用于查询，物理表是实际存储数据的。

官方给出的创建复制表示例

CREATE TABLE table_name
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{layer}-{shard}/table_name', '{replica}')
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)

贴上本文本地表的创建代码：

-- 建本地表
CREATE TABLE test.countly_device_local on cluster ch_cluster
(
	`appKey` String COMMENT 'appKey',
	`deviceId` String COMMENT 'deviceId',
	`nginxTime` DateTime COMMENT 'nginxTime',
	`rooted` String COMMENT 'rooted',
	`chargi