ClickHouse中引擎相关知识

<remote_servers>
    <my_cluster_name>
        <shard>
            <replica>
                <host>replica1_host_name</host>
                <port>9000</port>
            </replica>
            <replica>
                <host>replica2_host_name</host>
                <port>9000</port>
            </replica>
        </shard>
    </my_cluster_name>
</remote_servers>

其中，`my_cluster_name`是您为集群指定的名称，`replica1_host_name`和`replica2_host_name`分别是主节点和从节点的主机名。您需要将这些值替换为实际的值。

完成配置后，您需要重启每个节点上的ClickHouse服务器以使更改生效。

此外，您还需要使用ReplicatedMergeTree系列引擎来创建表。例如：

CREATE TABLE mytable (
    ...
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/mytable', '{replica}')

其中，`{shard}`和`{replica}`是占位符，它们分别表示分片编号和副本名称。在实际使用中，您需要将它们替换为实际的值。

2. 学习ClickHouse的MergeTree系列存储引擎

ClickHouse提供了多种存储引擎，每种存储引擎都有其特定的用途和优缺点。下面是一些常用的存储引擎：

- MergeTree：这是ClickHouse中最常用的存储引擎。它支持数据分区、索引和数据压缩，能够快速处理大量数据。

- ReplicatedMergeTree：这是MergeTree的复制版本。它支持在多个节点之间复制数据，提供容错能力。

- SummingMergeTree：这是MergeTree的一个变种，它能够自动聚合数据。当插入新数据时，它会自动将相同键的行合并为一行。

- ReplacingMergeTree：这也是MergeTree的一个变种，它能够自动去重。当插入新数据时，它会自动删除具有相同主键的旧行。

- CollapsingMergeTree：这也是MergeTree的一个变种，它能够自动折叠数据。当插入新数据时，它会自动删除具有相同主键但符号相反的行。

- AggregatingMergeTree：这也是MergeTree的一个变种，它能够自动聚合数据。当插入新数据时，它会自动将相同键的行聚合为一行。

以上就是ClickHouse中常用的一些存储引擎。在选择存储引擎时，需要根据实际应用场景来选择合适的存储引擎。

2.1 MergeTree存储引擎

MergeTree是ClickHouse中最常用的存储引擎之一。它支持数据分区、索引和数据压缩，能够快速处理大量数据。

MergeTree存储引擎的工作原理是将数据快速写入表的部分，然后在后台应用规则合并这些部分。这种方法比在插入过程中不断重写存储中的数据更有效。

MergeTree存储引擎具有以下主要特点：

- 按主键存储数据。这允许创建一个小的稀疏索引，有助于更快地查找数据。
- 如果指定了分区键，则可以使用分区。ClickHouse支持某些与分区有关的操作，这些操作比具有相同结果的通用操作更有效。ClickHouse还会自动切断查询中指定了分区键的分区数据。
- 支持数据复制。ReplicatedMergeTree表系列提供了数据复制。有关更多信息，请参阅数据复制。
- 支持数据采样。如果需要，可以在表中设置数据采样方法。

2.2 如何设置数据采样方法

在创建MergeTree表时，可以通过指定`SAMPLE BY`子句来设置数据采样方法。例如：

CREATE TABLE mytable (
    ...
) ENGINE = MergeTree()
ORDER BY (...)
SAMPLE BY column_name

其中，`column_name`是您要用于采样的列的名称。

当您执行查询时，可以使用`SAMPLE`子句来指定要使用的采样率。例如：

SELECT ...
FROM mytable
SAMPLE 0.1
WHERE ...

上面的查询将对表中10%的数据进行采样。

需要注意的是，只有MergeTree系列的表才支持数据采样。此外，在表创建过程中必须指定采样表达式。

2.3 ReplicatedMergeTree存储引擎

ReplicatedMergeTree是MergeTree存储引擎的复制版本。它支持在多个节点之间复制数据，提供容错能力。

要使用ReplicatedMergeTree存储引擎，您需要在创建表时指定`ENGINE = ReplicatedMergeTree`，并提供ZooKeeper路径和副本名称作为参数。例如：

CREATE TABLE mytable (
    ...
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/mytable', '{replica}')
ORDER BY (...)

其中，`/clickhouse/tables/{shard}/mytable`是ZooKeeper路径，用于存储表的元数据。`{shard}`和`{replica}`是占位符，分别表示分片编号和副本名称。在实际使用中，您需要将它们替换为实际的值。

此外，您还需要在ClickHouse服务器的配置文件中设置ZooKeeper集群的地址。

2.4 SummingMergeTree存储引擎

SummingMergeTree是MergeTree存储引擎的一个变种，它能够自动聚合数据。当合并数据部分时，ClickHouse会将所有具有相同主键（或更准确地说，具有相同排序键）的行替换为一行，其中包含数值数据类型列的汇总值。

如果排序键的组成方式使得单个键值对应大量行，则可以显著减少存储空间并加快数据选择速度。

要使用SummingMergeTree存储引擎，您需要在创建表时指定`ENGINE = SummingMergeTree`。例如：

CREATE TABLE mytable (
    ...
) ENGINE = SummingMergeTree()
ORDER BY (...)

此外，您还可以通过指定`ENGINE = SummingMergeTree([columns])`来指定要汇总的列。其中，`columns`是一个包含列名称的元组。

2.5 ReplacingMergeTree存储引擎

ReplacingMergeTree是MergeTree存储引擎的一个变种，它能够自动去重。当合并数据部分时，ClickHouse会删除具有相同排序键值（`ORDER BY`表部分，而不是`PRIMARY KEY`）的重复条目。

数据去重仅在合并期间发生。合并在后台发生在未知时间，因此您无法为其计划。一些数据可能仍然未处理。尽管您可以使用`OPTIMIZE`查询运行非计划合并，但不要依赖它，因为`OPTIMIZE`查询将读写大量数据。因此，ReplacingMergeTree适用于在后台清除重复数据以节省空间，但它不能保证没有重复。

要使用ReplacingMergeTree存储引擎，您需要在创建表时指定`ENGINE = ReplacingMergeTree`。例如：

CREATE TABLE mytable (
    ...
) ENGINE = ReplacingMergeTree()
ORDER BY (...)

此外，您还可以通过指定`ENGINE = ReplacingMergeTree([ver])`来指定版本列。其中，`ver`是版本号列的名称。

2.6 CollapsingMergeTree存储引擎

CollapsingMergeTree是MergeTree存储引擎的一个变种，它能够自动折叠数据。当合并数据部分时，ClickHouse会异步删除（折叠）除了特定字段Sign（可以具有1和-1值）以外，所有字段都相等的成对行。没有成对的行将被保留。

要使用CollapsingMergeTree存储引擎，您需要在创建表时指定`ENGINE = CollapsingMergeTree`，并提供Sign列作为参数。例如：

CREATE TABLE mytable (
    ...
) ENGINE = CollapsingMergeTree(sign)
ORDER BY (...)

其中，`sign`是Sign列的名称。

2.7 AggregatingMergeTree存储引擎

AggregatingMergeTree是MergeTree存储引擎的一个变种，它能够自动聚合数据。ClickHouse会将具有相同主键（或更准确地说，具有相同排序键）的所有行替换为一行（在一个数据部分内），该行存储聚合函数状态的组合。

您可以使用AggregatingMergeTree表进行增量数据聚合，包括聚合物化视图。

要使用AggregatingMergeTree存储引擎，您需要在创建表时指定`ENGINE = AggregatingMergeTree`。例如：

CREATE TABLE mytable (
    ...
) ENGINE = AggregatingMergeTree()
ORDER BY (...)

此外，您还需要在表中使用`AggregateFunction`类型来定义要聚合的列。

2.8 如何选择合适的存储引擎

选择合适的ClickHouse存储引擎需要根据您的具体应用场景来决定。不同的存储引擎具有不同的特点和优缺点，因此需要根据您的数据类型、查询需求和性能要求来选择合适的存储引擎。

例如，如果您需要快速处理大量数据，可以考虑使用MergeTree存储引擎。如果您需要在多个节点之间复制数据，可以考虑使用ReplicatedMergeTree存储引擎。如果您需要自动聚合数据，可以考虑使用SummingMergeTree、AggregatingMergeTree或CollapsingMergeTree存储引擎。

总之，在选择存储引擎时，需要仔细考虑您的应用场景，并根据您的需求选择合适的存储引擎。

3. ClickHouse的列存储

ClickHouse是一种列式存储数据库，这意味着它将数据按列而不是按行存储。这种存储方式对于分析查询非常有用，因为它允许数据库快速读取和处理大量数据。

在列式存储中，每一列的数据都单独存储在磁盘上。这意味着当您执行查询时，数据库只需要读取与查询相关的列，而不是整个表。这样可以大大提高查询性能。

此外，列式存储还允许对数据进行更有效的压缩。由于同一列中的数据通常具有相似的数据类型和分布，因此可以使用更高效的压缩算法来压缩数据。

3.1 ClickHouse列存储编码

ClickHouse使用多种编码方法来压缩列数据，以减少磁盘空间占用并提高查询性能。这些编码方法包括LZ4、ZSTD、Delta和Gorilla等。

LZ4和ZSTD是通用压缩算法，可以对任何类型的数据进行压缩。它们在压缩比和压缩速度之间取得了很好的平衡。

Delta编码用于对整数序列进行压缩。它通过存储序列中相邻元素之间的差值来减少数据冗余。

Gorilla编码用于对浮点数序列进行压缩。它通过存储序列中相邻元素之间的XOR值来减少数据冗余。

此外，ClickHouse还支持针对特定数据类型的编码方法，例如RLE（游程编码）和Bit Packed等。

总之，ClickHouse通过使用多种编码方法来压缩列数据，以提高查询性能并减少磁盘空间占用。

3.2 ClickHouse数据压缩策略

ClickHouse使用多种压缩算法来减少磁盘空间占用并提高查询性能。这些算法包括通用压缩算法，如LZ4和ZSTD，以及针对特定数据类型的列/时序压缩算法，如T64、Delta、DoubleDelta和Gorilla等。

LZ4和ZSTD是通用压缩算法，可以对任何类型的数据进行压缩。它们在压缩比和压缩速度之间取得了很好的平衡。

T64、Delta、DoubleDelta和Gorilla等列/时序压缩算法适用于按列存储的数据，尤其适用于时序场景。它们通过利用列数据的特定特征来实现高效压缩。

总之，ClickHouse通过使用多种压缩算法来减少磁盘空间占用并提高查询性能。

4. ClickHouse的计算引擎

ClickHouse是一个性能卓越的OLAP计算引擎，它的极致性能背后的关键因素之一是其极致性能的向量化执行引擎。

向量化执行引擎是指对不同的数据执行同样的一个或一批指令，或者说把指令应用于一个数组/向量，通过CPU数据并行，实现单指令、多数据（简称SIMD）。这种技术可以显著提高OLAP查询性能。

在ClickHouse中，向量化的实现主要通过SIMD内置函数和编译器自动向量化。大量使用了SIMD内置函数对关键代码路径进行优化，并通过良好的架构设计和代码设计，使得编译器能够生成良好的向量化代码。

此外，ClickHouse还采用了基于Pipeline的执行引擎设计，能够按列对数据进行处理。这种设计使得ClickHouse能够充分利用向量化技术来提高查询性能。

4.1 向量化执行模型

向量化执行是一种数据库计算引擎的优化技术，它的目的是通过均摊开销来减小框架开²。它的基本思想是将计算引擎每次生成一行数据的模型改为每次生成一批数据，这样可以大大减少火山模型中的虚函数调用数量，提高cache命中率，同时处理多行数据，使SIMD有了用武之地。

向量化执行模型有以下几个好处：
1. 大大减少火山模型中的虚函数调用数量；
2. 以块为处理单位数据，提高了cache命中率；
3. 多行并发处理，契合了CPU乱序执行与并发执行的特性；
4. 同时处理多行数据，使SIMD有了用武之地。

4.1.1 ClickHouse计算引擎的优点和缺点

ClickHouse 计算引擎的优点之一是它的极致性能。它采用了真正的列式存储和极致性能的向量化执行引擎，能够大大提高查询性能。此外，ClickHouse 计算引擎还支持多种高级功能，例如数据分片、数据复制、数据压缩等，能够满足各种复杂的业务需求。

当然，ClickHouse 计算引擎也有一些潜在的缺点。例如，它可能不如其他数据库在事务处理方面强大，因此可能不适用于 OLTP 场景。此外，ClickHouse 计算引擎也需要较高的硬件配置才能发挥最佳性能。

总之，ClickHouse 计算引擎具有许多优点，但也有一些潜在的缺点，需要根据具体情况权衡利弊。

4.1.2 如何优化ClickHouse计算引擎

可以通过多种方式来优化 ClickHouse 计算引擎的性能。首先，你可以通过优化查询语句来提高查询性能。例如，可以尽量避免使用复杂的嵌套查询，尽量使用简单、直接的查询语句。此外，可以尽量避免在查询中使用大量的函数调用，以减少函数调用的开销。

此外，你也可以通过升级硬件配置来提高 ClickHouse 计算引擎的性能。例如，可以增加内存容量，以便为计算引擎提供更多的空间；也可以升级处理器，以便更快地执行计算任务。

总之，你可以通过优化查询语句和升级硬件配置来提高 ClickHouse 计算引擎的性能。

4.2 火山模型

火山模型（迭代器模型）是数据库界已经很成熟的解释计算模型，该计算模型将关系代数中每一种操作抽象为一个 Operator，将整个 SQL 构建成一个 Operator 树，从根节点到叶子结点自上而下地递归调用 next () 函数。

火山模型的优点在于简单，每个 Operator 可以单独抽象实现、不需要关心其他 Operator 的逻辑。但是缺点也很明显，每次都是计算一个 tuple（Tuple-at-a-time），这样会造成多次调用 next ，也就是造成大量的虚函数调用，这样会造成 CPU 的利用率不高。

火山模型是一种非常成熟的解释计算模型，被许多数据库系统采用。例如，PostgreSQL 和 MySQL 都使用了火山模型。但是，随着硬件技术的发展，一些数据库系统也开始采用其他计算模型，如向量化执行和代码生成等。

4.3 火山模型和向量化执行的区别

火山模型和向量化执行是两种不同的数据库计算引擎优化技术。

火山模型是一种解释计算模型，它将关系代数中每一种操作抽象为一个 Operator，将整个 SQL 构建成一个 Operator 树，从根节点到叶子结点自上而下地递归调用 next () 函数。它的优点在于简单，每个 Operator 可以单独抽象实现、不需要关心其他 Operator 的逻辑。但是缺点也很明显，每次都是计算一个 tuple（Tuple-at-a-time），这样会造成多次调用 next ，也就是造成大量的虚函数调用，这样会造成 CPU 的利用率不高。

向量化执行则是一种优化技术，它的目的是通过均摊开销来减小框架开销。它的基本思想是将计算引擎每次生成一行数据的模型改为每次生成一批数据，这样可以大大减少火山模型中的虚函数调用数量，提高cache命中率，同时处理多行数据，使SIMD有了用武之地。

总之，火山模型和向量化执行是两种不同的技术，它们各有优缺点。

4.4 SIMD编码

SIMD 是 Single Instruction Multiple Data 的缩写，意为“单指令多数据”。它为使用单指令并行对多条数据执行操作提供了硬件支持。SIMD 操作可以在硬件级别并行化，这可以增加向量化计算的吞吐量，这在数学、科学和图形应用中很常见。

例如，在 .NET 中，System.Numerics 命名空间下有一组 SIMD 加速类型，包括 Vector2、Vector3 和 Vector4 类型，用于表示具有 2、3 和 4 Single 值的向量；两个矩阵类型：Matrix3x2（表示 3x2 矩阵）和 Matrix4x4（表示 Single 值的 4x4 矩阵）；Plane 类型，表示使用 Single 值的三维空间中的一个平面；Quaternion 类型，表示一个用于使用 Single 值来对三维物理旋转进行编码的向量；Vector<T> 类型，表示指定数字类型的向量，并提供受益于 SIMD 支持的一组广泛的运算符。

4.5 Codegen

ClickHouse 实现了 Expression 级别的 runtime codegen，动态地根据当前 SQL 直接生成代码，然后编译执行。这不仅消除了大量的虚函数调用，而且由于在运行时表达式的参数类型、个数等都是已知的，所以编译器能够更好地进行优化。

4.5.1 ClickHouse中Codegen优点

ClickHouse 中的 Codegen 技术可以带来许多优点。首先，它能够消除大量的虚函数调用，从而减少了函数调用的开销。其次，由于在运行时表达式的参数类型、个数等都是已知的，所以编译器能够更好地进行优化，生成更高效的代码。这些优化可以显著提高查询性能。

4.5.2 ClickHouse中Codegen有哪些缺点

虽然 ClickHouse 中的 Codegen 技术能够带来许多优点，但它也有一些潜在的缺点。首先，Codegen 需要在运行时动态编译代码，这会增加一些额外的开销。其次，Codegen 生成的代码可能不如手写的代码优化得好，因此在某些情况下可能无法达到最佳性能。此外，Codegen 技术通常需要更多的内存来存储生成的代码。

总之，虽然 ClickHouse 中的 Codegen 技术能够带来许多优点，但它也有一些潜在的缺点，需要根据具体情况权衡利弊

4.5.3 如何使用ClickHouse中Codegen

在 ClickHouse 中，Codegen 是自动进行的，无需用户手动启用或配置。当你在 ClickHouse 中执行查询时，系统会自动根据当前 SQL 生成代码，然后编译执行。这一过程对用户是透明的，无需进行任何额外操作。

4.5.4 ClickHouse中Codegen与其他数据库中Codegen有什么区别

Codegen 技术在不同的数据库中可能会有所不同。在 ClickHouse 中，Codegen 是针对 Expression 级别进行的，能够动态地根据当前 SQL 直接生成代码，然后编译执行。这种方法能够消除大量的虚函数调用，从而减少了函数调用的开销。

其他数据库中的 Codegen 技术可能会有所不同。例如，一些数据库可能会针对整个查询计划进行 Codegen，而不是针对单个 Expression。此外，不同数据库中的 Codegen 技术也可能在实现细节上有所不同。

总之，ClickHouse 中的 Codegen 技术与其他数据库中的 Codegen 技术可能会有所不同，具体取决于各自的实现方式。

4.5.5 ClickHouse中Codegen的性能如何

在 ClickHouse 中，Codegen 技术能够显著提高查询性能。它能够消除大量的虚函数调用，从而减少了函数调用的开销。此外，由于在运行时表达式的参数类型、个数等都是已知的，所以编译器能够更好地进行优化，生成更高效的代码。

当然，Codegen 技术对查询性能的提升也会受到许多因素的影响，包括查询本身的复杂度、数据量、硬件配置等。在实际使用中，可以通过测试来评估 Codegen 技术对查询性能的具体影响。

4.5.6 如何优化ClickHouse中Codegen

在 ClickHouse 中，Codegen 是自动进行的，无需用户手动启用或配置。但是，你可以通过优化查询语句来提高 Codegen 的效率。例如，可以尽量避免使用复杂的嵌套查询，尽量使用简单、直接的查询语句。此外，可以尽量避免在查询中使用大量的函数调用，以减少函数调用的开销。

除此之外，你也可以通过升级硬件配置来提高 Codegen 的性能。例如，可以增加内存容量，以便为 Codegen 生成的代码提供更多的空间；也可以升级处理器，以便更快地执行 Codegen 生成的代码。

总之，你可以通过优化查询语句和升级硬件配置来提高 ClickHouse 中 Codegen 的性能。

4.5.7 ClickHouse中Codegen与其他技术有什么关系

在 ClickHouse 中，Codegen 技术与其他技术密切相关。例如，Codegen 技术可以与向量化执行技术结合使用，以进一步提高查询性能。向量化执行技术通过将计算引擎每次生成一行数据的模型改为每次生成一批数据，来减少框架开销。这样可以大大减少火山模型中的虚函数调用数量，提高 cache 命中率，同时处理多行数据，使 SIMD 有了用武之地。

此外，Codegen 技术也可以与其他数据库优化技术结合使用，例如索引、分区、数据压缩等。这些技术可以协同工作，共同提高 ClickHouse 的查询性能。

总之，在 ClickHouse 中，Codegen 技术与其他技术密切相关，可以协同工作以提高查询性能。

4.5.8 ClickHouse中Codegen与硬件配置有什么关系

在 ClickHouse 中，Codegen 技术与硬件配置密切相关。首先，Codegen 需要在运行时动态编译代码，这会增加一些额外的开销。因此，拥有更快的处理器可以帮助更快地完成编译过程，从而提高查询性能。

此外，Codegen 技术通常需要更多的内存来存储生成的代码。因此，增加内存容量可以为 Codegen 生成的代码提供更多的空间，从而提高查询性能。

总之，在 ClickHouse 中，Codegen 技术与硬件配置密切相关。通过升级硬件配置，可以提高 Codegen 的性能。

4.5.9 ClickHouse中Codegen与其他数据库中Codegen的性能比较

Codegen 技术在不同的数据库中可能会有所不同，因此很难直接比较 ClickHouse 中的 Codegen 与其他数据库中的 Codegen 的性能。在 ClickHouse 中，Codegen 是针对 Expression 级别进行的，能够动态地根据当前 SQL 直接生成代码，然后编译执行。这种方法能够消除大量的虚函数调用，从而减少了函数调用的开销。

总之，由于 Codegen 技术在不同的数据库中可能会有所不同，因此很难直接比较 ClickHouse 中的 Codegen 与其他数据库中的 Codegen 的性能。

九州Pro

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
ClickHouse中引擎相关知识

1. 了解ClickHouse的基础架构和存储引擎。2. 学习ClickHouse的MergeTree系列引擎，包括MergeTree、ReplicatedMergeTree、CollapsingMergeTree等。3. 研究ClickHouse的列存储编码、数据压缩策略等。4. 学习ClickHouse的计算引擎，包括向量化执行模型、SIMD编码、Codegen等。
复制链接

扫一扫