ClickHouse实战--clickhouse使用场景与原理解析

阿华田512

已于 2022-05-02 14:01:41 修改

阅读量1.1w

点赞数 12

分类专栏： clickhouse 文章标签： clickhourse clickhourse使用

于 2020-10-20 11:30:28 首次发布

本文链接：https://blog.csdn.net/aA518189/article/details/109177654

版权

关注微信公众号【BigData512,了解更多大数据技术

ClickHouse简介

ClickHouse是Yandex提供的一个开源的列式存储数据库管理系统，多用于联机分析（OLAP）场景，可提供海量数据的存储和分析，同时利用其数据压缩和向量化引擎的特性，能提供快速的数据搜索。注意到ClickHouse是一个数据库管理系统，而不是单个数据库。

ClickHouse 特点

读多于写
大宽表，读大量行但是少量列，结果集较小通常存在一张或是几张多列的大宽表，列数高达数百甚至数千列。对数据分析处理时，选择其中的少数几列作为维度列、其他少数几列作为指标列，然后对全表或某一个较大范围内的数据做聚合计算。这个过程会扫描大量的行数据，但是只用到了其中的少数列。而聚合计算的结果集相比于动辄数十亿的原始数据，也明显小得多
向量引擎
：数据不仅按列存储，而且通过向量（列的一部分）进行处理，从而可以实现较高的CPU效率。
实时数据更新
：ClickHouse支持具有主键的表。为了在主键范围内快速执行查询，使用合并树对数据进行增量排序。因此，可以将数据连续添加到表中。摄取新数据时不采取任何锁定。
数据批量写入：且数据不更新或少更新由于数据量非常大，通常更加关注写入吞吐，要求海量数据能够尽快导入完成。一旦导入完成，历史数据往往作为存档，不会再做更新、删除操作。
无需事务，数据一致性要求低
灵活多变，不适合预先建模分析场景下，随着业务变化要及时调整分析维度、挖掘方法，以尽快发现数据价值、更新业务指标。而数据仓库中通常存储着海量的历史数据，调整代价十分高昂。预先建模技术虽然可以在特定场景中加速计算，但是无法满足业务灵活多变的发展需求，维护成本过高
数据有序存储 ClickHouse支持在建表时，指定将数据按照某些列进行sort by。排序后，保证了相同sort key的数据在磁盘上连续存储，且有序摆放。在进行等值、范围查询时，where条件命中的数据都紧密存储在一个或若干个连续的Block中，而不是分散的存储在任意多个Block，大幅减少需要IO的block数量。另外，连续IO也能够充分利用操作系统page cache的预取能力，减少page fault
高吞吐写入能：能够达到50MB-200MB/s的写入吞吐能力，按照每行100Byte估算，大约相当于50W-200W条/s的写入速度
分布式计算 ClickHouse会自动将查询拆解为多个task下发到集群中，然后进行多机并行处理，最后把结果汇聚到一起。
多核并行：MySQL单条SQL是单线程的，只能跑满一个core，ClickHouse相反，ClickHouse将数据划分为多个partition，每个partition再进一步划分为多个index granularity，然后通过多个CPU核心分别处理其中的一部分来实现并行数据处理。在这种设计下，单条Query就能利用整机所有CPU。极致的并行处理能力，极大的降低了查询延时。

支持接口

ClickHouse提供了两个网络接口（为了安全起见，都可以选择将两者包装在TLS中）：

HTTP，有文档记录，易于直接使用。

最低0.47元/天解锁文章

阿华田512

关注

12
点赞
踩
35

收藏

觉得还不错? 一键收藏
打赏
3
评论
ClickHouse实战--clickhouse使用场景与原理解析

ClickHouse简介ClickHouse是Yandex提供的一个开源的列式存储数据库管理系统，多用于联机分析（OLAP）场景，可提供海量数据的存储和分析，同时利用其数据压缩和向量化引擎的特性，能提供快速的数据搜索。注意到ClickHouse是一个数据库管理系统，而不是单个数据库。ClickHouse 特点读多于写大宽表，读大量行但是少量列，结果集较小通常存在一张或是几张多列的大宽表，列数高达数百甚至数千列。对数据分析处理时，选择其中的少数几列作为维度列、其他少数几列作为指标列，然后.
复制链接

扫一扫