Clickhouse学习(一):MergeTree概述

最新推荐文章于 2024-09-21 10:21:13 发布

我爱夜来香A

最新推荐文章于 2024-09-21 10:21:13 发布

阅读量632

点赞数

分类专栏： Mpp数据库文章标签： clickhouse 学习大数据

本文链接：https://blog.csdn.net/nzbing/article/details/129242637

版权

Mpp数据库专栏收录该内容

3 篇文章 0 订阅

订阅专栏

MergeTree

一、Clickhouse表引擎概述
二、MergeTree表引擎
三、MergeTree分区

一、Clickhouse表引擎概述

MergeTree表引擎:允许根据日期和主键创建索引

1、ReplacingMergeTree：该引擎和 MergeTree 的不同之处在于它会删除具有相同主键的重复项。数据的去重只会在合并的过程中出现。因此，ReplacingMergeTree 适用于在后台清除重复的数据以节省空间，但是它不保证没有重复的数据出现。
2、SummingMergeTree：把所有具有相同主键的行合并为一行，并添加合并行的聚合值。如果单个键值对应于大量的行，则可以显著的减少存储空间并加快数据查询的速度。
3、AggregatingMergeTree：将相同主键的所有行（在一个数据片段内）替换为单个存储一系列聚合函数状态的行。可以使用 AggregatingMergeTree 表来做增量数据统计聚合，包括物化视图的数据聚合
Distributed分布式引擎本身不存储数据,但可以在多个服务器上进行分布式查询
外部存储表引擎,如HDFS、Mysql、JDBC、Kafka、File,相当于外部数据源
内存表引擎,如Memory、Set、Join、Buffer,实现内存加速和各种功能
还有其他如日志表引擎、接口引擎(自定义)、Null表引擎、URL表引擎

二、MergeTree表引擎

在这里插入图片描述
需要注意两点:

MergeTree的主键(primary key)只是用来生成一级索引(primary)的,并没有唯一性约束这样的语义;order by决定了每个分区中数据的排序规则,order by可以指代primary key,通常只用声明order by即可
通常只有SummingMergeTree或AggregatingMergeTree的时候,才需要同时设置order by和primary
key,显式的设置primary key,是为了将主键和排序键设置成不同的值,是进一步优化的体现,比如聚合条件group by a,b,c,过滤条件where A,此时order by a,b,c,primary key a,注意,如果order by和primary key不同,primary key必须是order by的前缀(为了保证分区内数据和逐渐的有序性)

<一>、ReplacingMergeTree引擎

设计为相同分区的数据进行数据去重

使用order by排序键作为唯一键
以分区为单位进行去重,只在分区合并时进行触发
如果参数没设置列,则保留重复数据的最后一行
如果参数设置了列,则保留重复数据中取值最大的一行

<二>、SummingMergeTree引擎

只需要根据group by条件得到汇总结果(sum),不关心明细数据,解决存储和查询的开销

使用order by排序键作为聚合汇总的条件key
以分区为单位进行聚合,只在分区合并时进行触发
如果指定了columns汇总列,则sum汇总这些字段
如果未指定columns汇总列,则sum汇总在所有非主键的数值类型字段
如果order by和primary key的字段不相同,pk列字段必须是order by的前缀,即order by(b,c)
primary key A不合法
非聚合字段,使用第一行数据的取值

<三>、AggregatingMergeTree引擎

AggregatingMergeTree是SummingMergeTree的升级版。聚合函数通过AggregateFunction实现

使用order by排序键作为聚合数据的条件key
以分区为单位进行聚合,只在分区合并时触发
不需要指定列,但需要通过AggregateFunction声明
写入数据时,需要调用State;读取数据,需要调用Merge
数据不能通过普通的insert插入,而只能通过insert into select

三、MergeTree分区

MergeTree…Partition By toYYYYMM(Date)

ClickHouse的表可以根据任意表达式分区
不同分区不会合并
合并可以通过optimize table命令触发
可以对分区进行操作

在MergeTree引擎下,每次insert into,即使数据属于同一个分区,但数据在存储上都会生成一个新的分区目录.目录名为201909_1_1_0
命名规范:
parititionId_minBlockNum_maxBlockNum_level
BlockNum:数据表全局自增,初始值从1开始,新建分区minBlockNum和maxBlockNum相同
Level:合并的次数
在这里插入图片描述