2021-03-19

最新推荐文章于 2023-04-28 08:40:42 发布

正经妖怪

最新推荐文章于 2023-04-28 08:40:42 发布

阅读量120

点赞数 1

文章标签：拓扑学涛思数据 talkingdata hadoop

本文链接：https://blog.csdn.net/lichaoyu__/article/details/115016059

版权

# MergeTree 家族索引

## 1.MergeTree

- MergeTree 是clickHouse数据存储功能的核心。

MergeTree在写入一批数据时，数据总会以数据片段的形式写入磁盘，且数据片段不可修改，为了避免数据片段过多click house会通过后台线程定期合并这些数据片段，属于相同分区的数据片段会被合成一个新的片段。这些数据片段往复合并的特点正是合并树名称的由来.

- 基本格式
```sql
CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster](
name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],
name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2],
...
INDEX index_name1 expr1 TYPE type1(...) GRANULARITY value1,
INDEX index_name2 expr2 TYPE type2(...) GRANULARITY value2)
ENGINE = MergeTree()ORDER BY expr[PARTITION BY expr][PRIMARY KEY expr][SAMPLE BY expr][TTL expr [DELETE|TO DISK 'xxx'|TO VOLUME 'xxx'], ...][SETTINGS name=value, ...]
```
缺点是因为它很重。因此，典型的模式是没有太多。如果需要许多小表请考虑使用Log enginefamily

- 参数解读
       MergeTree表引擎除了常规参数之外，还拥有一些独有的配置选项。接下来会着重介绍其中几个重要的参数，包括它们的使用方法和工作原理。
       1）PARTITION BY [选填]：分区键，用于指定表数据以何种标准进行分区。分区键既可以是单个列字段，也可以通过元组的形式使用多个列字段，同时它也支持使用列表达式。如果不声明分区键，则 ClickHouse会生成一个名为all的分区。合理使用数据分区，可以有效减少查询时数据文件的扫描范围。
       （2）ORDER BY [必填]：排序键，用于指定在一个数据片段内，数据以何种标准排序。默认情况下主键（PRIMARY KEY）与排序键相同。排序键既可以是单个列字段，例如ORDER BY CounterID，也可以通过元组的形式使用多个列字段，例如ORDER BY（CounterID,EventDate）。当使用多个列字段排序时，以ORDER BY（CounterID,EventDate）为例，在单个数据片段内，数据首先会以 CounterID排序，相同CounterID的数据再按EventDate排序。
   （3）PRIMARY KEY [选填]：主键，顾名思义，声明后会依照主键字段生成一级索引，用于加速表查询。默认情况下，主键与排序键 (ORDER BY)相同，所以通常直接使用ORDER BY代为指定主键，无须刻意通过PRIMARY KEY声明。所以在一般情况下，在单个数据片段内，数据与一级索引以相同的规则升序排列。与其他数据库不同，MergeTree 主键允许存在重复数据（ReplacingMergeTree可以去重）。
       4）SAMPLE BY [选填]：抽样表达式，用于声明数据以何种标准进行采样。如果使用了此配置项，那么在主键的配置中也需要声明同样的表达式，例如：
```sql
       省略...
) ENGINE = MergeTree()
ORDER BY (CounterID, EventDate, intHash32(UserID) SAMPLE BY intHash32(UserID)
```
（5）SETTINGS：index_granularity [选填]： index_granularity对于MergeTree而言是一项非常重要的参数，它表示索引的粒度，默认值为8192。也就是说，MergeTree的索引在默认情况下，每间隔8192行数据才生成一条索引，其具体声明方式如下所示：

```sql
省略...
) ENGINE = MergeTree()
省略...
SETTINGS index_granularity = 8192;
```

（6）SETTINGS：index_granularity_bytes [选填]：在19.11版本之前，ClickHouse只支持固定大小的索引间隔，由 index_granularity控制，默认为8192。在新版本中，它增加了自适应间隔大小的特性，即根据每一批次写入数据的体量大小，动态划分间隔大小。而数据的体量大小，正是由index_granularity_bytes参数控制的，默认为10M(10×1024×1024)，设置为0表示不启动自适应功能。
（7）SETTINGS：enable_mixed_granularity_parts [选填]：设置是否开启自适应索引间隔的功能，默认开启。
（8）SETTINGS：merge_with_ttl_timeout [选填]：从19.6版本开始，MergeTree提供了数据TTL的功能，关于这部分的详细介绍，将留到第7章介绍。
（9）SETTINGS：storage_policy [选填]：从19.15版本开始， MergeTree提供了多路径的存储策略。

## 2.Replacing'MergeTree

这个引擎实在

正经妖怪

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-03-19

# MergeTree 家族索引## 1.MergeTree- MergeTree 是clickHouse数据存储功能的核心。 MergeTree在写入一批数据时，数据总会以数据片段的形式写入磁盘，且数据片段不可修改，为了避免数据片段过多click house会通过后台线程定期合并这些数据片段，属于相同分区的数据片段会被合成一个新的片段。这些数据片段往复合并的特点正是合并树名称的由来.- 基本格式```sqlCREATE TABLE [IF NOT EXISTS] [db.]t...
复制链接

扫一扫