【数据库学习】ClickHouse(ck）

兔兔西

已于 2024-01-12 16:18:14 修改

阅读量1.7k

点赞数 10

文章标签：数据库学习 clickhouse

于 2024-01-11 16:20:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SunshineTan/article/details/135532780

版权

1，ClickHouse（CK）

是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

1）特性

按列存储，列越多速度越慢；
按列存储，数据更容易压缩（类型相同、区分度）；==》每次读取的数据就更多，更少的io。
聚合性能高；
类sql操作；仅支持数据的查询、批量写入、批量删除。
用于磁盘查询，同时也利用SSD和内存
支持近似计算

2）常见的列式数据库有

Vertica、 Paraccel (Actian Matrix，Amazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB、 MonetDB (VectorWise， Actian Vector)、 LucidDB、 SAP HANA、 Google Dremel、 Google PowerDrill、 Druid、 kdb+。

3）ck为什么快？

列式存储，数据类型相同，值范围也可能小（稀疏索引），更容易压缩，压缩之后每次io读取数据更多，降低了io。
可以把更多的数据放入内存。
在ck中，数据保存在不同的shard上，每一个shard都由一组用于容错的replica组成，查询可以并行地在所有shard上进行处理。
向量引擎，更高效的使用cpu。

插入为什么块？顺序批量写入；
删除为什么快？删除不快，一般按表删除（比如按天分区）。
查询为什么块？索引；
不支持修改；
group by为什么块？按列算，列数据量小；

2，索引原理

1）主索引（Primary Indexes）建立：LSM树

数据批量入库；
索引文件组织：主键列 + 其它排序列升序
每个表都有一个数据文件(*.bin)用于存储索引
按稀疏矩阵压缩，存储在磁盘上。

Granule （颗粒、行组）
是ck进行数据处理的最小的不可分割数据集。
ck每次读取数据，不是读取单独的行，而是始终读取整个行组（Granule）。

在这里插入图片描述第一个(根据磁盘上的物理顺序)8192行(它们的列值)在逻辑上属于颗粒0，然后下一个8192行(它们的列值)属于颗粒1，以此类推。
每个颗粒对应主索引的一个条目。

2）索引查询

1>颗粒选择

通过主索引二分查找，选择可能包含匹配查询的行的颗粒。

2>定位颗粒

每个列的标记文件以偏移量的形式存储两个位置:

压缩块位置
包含所选颗粒的压缩版本的压缩列数据文件中定位块。这个压缩块可能包含几个压缩的颗粒。所定位的压缩文件块在读取时被解压到内存中。
解压数据的位置
颗粒在解压数据块中的位置。

3）二级索引（Skipping Indexes)

传统的关系数据库的二级索引并不适用与ck（或者列式存储数据库），因为磁盘上没有单独的行可以添加到索引中。

如果一级索引查询后基数过大，可以考虑建立二级索引；
如果二级索引没有太大作用，此时，可以考虑：

新建一个不同的主键的新表；
创建一个物化视图；
增加Projecttion

ck主要的二级索引类型有：minmax、set、Bloom Filter。

1>Minmax

存储每个块的索引表达式的最小值和最大值(如果表达式是一个元组，它分别存储元组元素的每个成员的值)。

场景：标量、元组表达式
不适用于：数组、map数据类型

2>Set

这个集合包含块中的所有值。
场景：列值相对集中。每组颗粒中基数较低、但总体基数较高的列。

3>Bloom Filter Types（跳数索引）

允许对集合成员进行高效的是否存在测试，但代价是有轻微的误报，读取更多的块。
场景：列有较多离散值、主键和目标列具有很强的相关性。

4）MergeTree引擎

关注

10
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
【数据库学习】ClickHouse(ck）

按列存储，列越多速度越慢。与传统关系数据库最大的区别：传统的关系型数据库是行式存储，而clickHouse是列式存储。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。