ClickHouse概述

最新推荐文章于 2024-08-18 11:29:58 发布

爱学习的菜鸟罢了

最新推荐文章于 2024-08-18 11:29:58 发布

阅读量2.3k

点赞数

分类专栏：大数据 flink clickhouse 文章标签： clickhouse flink

本文链接：https://blog.csdn.net/qq_34387470/article/details/121456951

版权

ClickHouse是一个用于在线分析处理（OLAP）的列式数据库管理系统，由Yandex开源。它支持SQL查询，具有高吞吐量、线性扩展性和数据压缩等特点，适用于大规模数据的实时分析。ClickHouse不支持事务，但提供分布式处理、数据压缩、多核心并行处理及SQL支持。其在数据分片、列式存储、向量化计算等方面展现出优秀的性能，尤其在大数据查询上表现出色。

摘要由CSDN通过智能技术生成

ClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Management System) , 主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。

ClickHouse是一个完全的列式分布式数据库管理系统，允许在运行时创建表和数据库，加载数据和运行查询，而无需重新配置和重新启动服务器，支持线性扩展，简单方便，高可靠性，容错。它在大数据领域没有走 Hadoop 生态，而是采用 Local attached storage 作为存储，这样整个 IO 可能就没有 Hadoop 那一套的局限。它的系统在生产环境中可以应用到比较大的规模，因为它的线性扩展能力和可靠性保障能够原生支持 shard + replication 这种解决方案。它还提供了一些 SQL 直接接口，有比较丰富的原生 client。另外就是它比较快，主要用于交互式查询。

交互式分析场景具有如下典型特点：

大多数访问是读请求。
写入通常为追加写，较少更新、删除操作。
读写不关注事务、强一致等特性。
查询通常会访问大量的行，但仅部分列是必须的。

查询结果通常明显小于访问的原始数据，且具有可理解的统计意义。

架构层面适用场景

绝大多数请求都是用于读访问的
数据需要以大批次（大于1000行）进行更新，而不是单行更新；或者根本没有更新操作
数据只是添加到数据库，没有必要修改
读取数据时，会从数据库中提取出大量的行，但只用到一小部分列
表很“宽”，即表中包含大量的列
查询频率相对较低（通常每台服务器每秒查询数百次或更少）
对于简单查询，允许大约50毫秒的延迟
列的值是比较小的数值和短字符串（例如，每个URL只有60个字节）
在处理单个查询时需要高吞吐量（每台服务器每秒高达数十亿行）
不需要事务
数据一致性要求较低
每次查询中只会查询一个大表。除了一个大表，其余都是小表
查询结果显著小于数据源。即数据有过滤或聚合。返回结果不超过单个服务器内存大小

架构层面不适合的场景

不支持事务
不擅长根据主键按行粒度进行查询（虽然支持），故不应该把ClickHouse当作Key-Value数据库使用
不擅长按行删除数据（虽然支持）
并发高 , 查询频次高

特征
1 完备的DBMS系统
ClickHouse拥有完备的管理功能，所以它称得上是一个DBMS（Database Management System，数据库管理系统），而不仅是一个数据库。作为一个DBMS，它具备了一些基本功能，如下所示。
DDL（数据定义语言）：可以动态地创建、修改或删除数据库、表和视图，而无须重启服务。
DML（数据操作语言）：可以动态查询、插入、修改或删除数据。
权限控