使用ClickHouse集群的7个基本技巧

最新推荐文章于 2024-11-01 18:32:45 发布

晨曦_子画

最新推荐文章于 2024-11-01 18:32:45 发布

阅读量798

点赞数 18

文章标签： clickhouse 网络服务器数据库 linux

本文链接：https://blog.csdn.net/u013528853/article/details/140582409

版权

ClickHouse 是速度最快、资源效率最高的 OLAP 数据库，可以在毫秒内查询数十亿行，并受到数千家公司的实时分析信赖。

这里有七个技巧，可以帮助你启动一个生产的ClickHouse集群，避免最常见的错误。

提示 1：使用多个副本

在测试ClickHouse时，很自然地部署了一个只有一台主机的配置，因为您可能不想使用额外的资源或承担不必要的费用。

这在开发或测试环境中没有错，但如果您只想在生产环境中使用一台主机，这可能会付出代价。如果发生故障，并且只有一个副本和一台主机，则有丢失所有数据的风险。

对于生产负载，应使用多个主机并在它们之间复制数据。它不仅可以确保在主机发生故障时数据保持安全，还可以平衡多个主机上的用户负载，从而加快资源密集型查询的速度。

提示2：不要对RAM感到害羞

ClickHouse 速度很快，但其速度取决于可用资源，尤其是 RAM。在开发或测试环境中以最少的 RAM 运行 ClickHouse 集群时，您可以看到出色的性能，但随着负载的增加，这可能会发生变化。

在具有大量同时读取和写入操作的生产环境中，RAM 的不足将更加明显。如果您的 ClickHouse 集群没有足够的内存，它会变慢，并且执行复杂的查询将花费更长的时间。

最重要的是，当ClickHouse执行资源密集型操作时，它可能会与操作系统本身竞争RAM，最终导致OOM，停机和数据丢失。

ClickHouse 的开发人员建议使用至少 16 GB 的 RAM 来确保集群稳定。您可以选择较少的内存，但只有在您知道负载不会很高时才这样做。

提示 3：选择表格引擎时要三思而后行

ClickHouse 支持多种具有不同特性的表引擎，但 MergeTree 引擎很可能是理想的选择。专用表是为特定用途量身定制的，但具有乍一看可能并不明显的局限性。日志系列引擎似乎是日志的理想选择，但它们不支持复制，并且其数据库大小有限。

MergeTree系列中的表引擎是默认选择，它们提供了ClickHouse闻名的核心数据功能。除非您确切知道为什么需要不同的表引擎，否则请使用 MergeTree 系列中的引擎，它将涵盖您的大多数用例。

提示 4：主键不要使用超过三列

ClickHouse中的主键与传统数据库中的主键用途不同。它们不确保唯一性，而是定义数据的存储和检索方式。

如果使用所有列作为主键，则可能会受益于更快的查询。然而，ClickHouse的性能不仅取决于读取数据，还取决于写入数据。当主键包含许多列时，当数据写入整个集群时，整个集群的速度会变慢。

ClickHouse中主键的最佳大小是两列或三列，因此可以运行更快的查询，但不会减慢数据插入速度。选择列时，请考虑将要发出的请求，并选择通常会在筛选器中选择的列。

提示 5：避免使用小插件

当您在ClickHouse中插入数据时，它首先将包含此数据的部分保存到磁盘中。然后，它对这些数据进行排序、合并，并将其插入到后台数据库中的正确位置。如果您经常插入小块数据，ClickHouse 将为每个小插入创建一个部分。它会减慢整个集群的速度，您可能会收到“太多部分”错误。

为了有效地插入数据，请以大块的形式添加数据，并避免每秒发送多个插入语句。ClickHouse 可以高速插入大量数据——即使是每秒 100K 行也可以——但它应该是一个批量插入，而不是多个较小的插入。

如果数据分量很小，请考虑使用外部系统，例如用于制作批量数据。ClickHouse 与 Kafka 集成得很好，可以有效地使用其中的数据。<a>Managed Kafka</a>

提示6：想想你将如何摆脱重复的数据

ClickHouse中的主键并不能确保数据是唯一的。与其他数据库不同，如果您在ClickHouse中插入重复数据，它将按原样添加。

因此，最好的选择是在插入数据之前确保数据是唯一的。例如，您可以在流处理应用程序（如 Apache Kafka）中执行此操作。如果无法实现，则在运行查询时有一些方法可以处理它。一种选择是仅用于选择重复行的最后一个版本。您还可以使用设计删除重复条目的引擎。最后，您可以运行以合并数据部分，但这是一项资源要求很高的操作，并且只有在知道它不会影响集群性能时才应该运行它。`argMax`ReplacingMergeTree`OPTIMIZE TABLE ... FINAL`