Clickhouse MergeTree分区原理

罗晓纯

已于 2022-02-25 21:43:35 修改

阅读量651

点赞数 2

分类专栏：大数据文章标签： clickhouse 大数据列式存储数据分区

于 2022-02-25 21:32:13 首次发布

本文链接：https://blog.csdn.net/m0_37795099/article/details/123036727

版权

大数据专栏收录该内容

15 篇文章 1 订阅

订阅专栏

本文详细解读了ClickHouse的MergeTree表引擎，包括其插入策略、创建表的语法，以及分区机制（如何生成分区ID、目录命名规则和合并过程）。还介绍了分区的用途和示例。阅读后能掌握在大数据场景中高效使用MergeTree的方法。

摘要由CSDN通过智能技术生成

1. MergeTree简介

MergerTree（及其家族）是Clickhouse最强大的表引擎。发生insert操作时，MergeTree以数据片段的方式快速写入数据，后台线程会定期以一定规则对数据片段进行Merge。在大数据场景中，相比在插入时不断修改（重写）已存储的数据，这种策略会高效很多。更多介绍可以详见官网。

2. MergeTree创建

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2],
    ...
    INDEX index_name1 expr1 TYPE type1(...) GRANULARITY value1,
    INDEX index_name2 expr2 TYPE type2(...) GRANULARITY value2
) ENGINE = MergeTree()
ORDER BY expr
[PARTITION BY expr]
[PRIMARY KEY expr]
[SAMPLE BY expr]
[TTL expr [DELETE|TO DISK 'xxx'|TO VOLUME 'xxx'], ...]
[SETTINGS name=value, ...]

其中各参数的含义和用法官网有详细的介绍，本文就不赘述了。以之前博客经常用到的启动时长测试表为例，创建一个简单的MergeTree引擎表并插入一些数据。

-- 建表
CREATE TABLE test
             (
                 `t_date` Date,
                 `t_device_id` String,
                 `app_name` String,
                 `package_name` String,
                 `launch_time` UInt32
             )ENGINE = MergeTree
             ORDER BY `t_date`
             PARTITION BY `t_date`;

-- 插入数据
 insert into test values('2022-01-01','D0001','launcher','com.android.launcher',1658),
             ('2022-01-01','D0002','setting','com.android.settings',2005),
             ('2022-01-02','D0003','','com.google.setupwizard',1052),
             ('2022-01-03','D0003','launcher','com.android.launcher',1360),
             ('2022-01-03','D0004','setting','com.android.settings',0),
             ('2022-01-03','D0004','','com.google.setupwizard',1357),
             ('2022-01-04','D0005','qq','com.tencent.qq',1698);

-- 查询
select * from test;

3. MergeTree的物理结构

建表后进入[clickhouse_home]/data/[database]/[table]目录（我的表直接建在default库，所以路径是/var/lib/clickhouse/data/default/）

4. MergeTree分区

MergeTree之所以叫做MergeTree，是因为它的分区目录是在数据写入的时候，后台进程不断对分区目录进行新增和合并，相同分区的目录会Merge到一起形成一个新的目录。

4.1 分区ID生成规则

类型	规则	样例	分区表达式	生成分区ID
不指定	没有声明PARTITION BY	/	/	all
整型	直接按照该整型的字符作为分区ID	7,15,80	PARTITION BY age	分区1：7 分区2：15 分区3：80
整型	直接按照该整型的字符作为分区ID	‘A1’,'A2',‘A111’	PARTITION BY length(code)	分区1：2 分区2：3
日期	按照日期或格式化后的日期值作为分区ID	2022-02-24，2022-02-25	PARTITION BY date	分区1：20220224 分区2：20220225
日期	按照日期或格式化后的日期值作为分区ID	2022-01-24，2022-02-25	PARTITION BY toYYYYMM(date)	分区1：202201 分区2：202202
其他	通过128位hash算法计算分区ID	'www.baidu.com'	PARTITION BY url	分区1：dab19e82e1f9a681