ClickHouse面试

樱桃小丸犊子_q

已于 2023-01-16 18:47:30 修改

阅读量277

点赞数

分类专栏： ClickHouse 文章标签：面试 clickhouse

于 2023-01-16 16:45:07 首次发布

本文链接：https://blog.csdn.net/m0_47612445/article/details/128701381

版权

ClickHouse 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.ClickHouse是什么

ClickHouse联机分析的数据库管理系统

2.列式存储和行式存储的区别

列式存储的优点是同一列存放在一起，由于数据类型相同，可以进行很好的压缩，排序更加方便，查询时不需要读取一整行数据
行式存储的优点是支持事务处理，更好的支持一致性

3.MergeTree是什么

mergetree有俩层含义：合并树表引擎家族或者是最基本的MergeTree表引擎

3.1MergeTree独有的两项技能TTL和存储策略

TTL
TTL有行级和表级，表示数据的存活周期，具体运行原理如果一张mergeTree被设置了TTL表达式，那么在写入数据时，会以数据分区为单位，在每个分区目录下生成一个TTL.txt文件，txt文件通过一串json保存了ttl的相关信息，column用于保存列级别，table用于保存表级别，max和min分别表示了ttl在该分区内指定日期最大值和最小值与interval计算后的时间戳
存储策略
数据片段写入，数据片段不可改变，定期合并相同的数据片段
多路径存储策略：根据配置策略的不同，目前有三类存储策略：


 - 默认策略：默认存储在config.xml配置的path目录下
 - JBOD策略：类似于raid0,每产生一次merge或者insert所产生的分区会轮询的写入磁盘
 - HOT/COLD策略：是有HOT和COLD两块区域，HOT区域主要使用SSD高性能存储媒介，COLD区域主要使用HDD高容量存储媒介。
 当时据写入mergetree之初会在HOT分区创建分区便于写入数据，当数据达到阈值会移动到COLD区

3.2MergeTree有俩种索引，一级索引和二级索引。

索引主要是帮助查询时减少扫描范围

一级索引
MergeTree主键使用PRIMARY KEY定义，依据index_granularity间隔，为数据表生成一级索引并保存在primary.idx文件内，索引文件按照primarykey排序；primary.idx文件内的索引采用稀疏索引，稀疏索引的好处在于少量的索引标记就能记录大量的区间位置信息
二级索引（跳数索引）

四种类型：minmax、set、布隆过滤器

索引的查询过程：MargeTee按照index_granularity的间隔粒度,将一段完整的数据划分为markrange(间隔数据段)
具体的查询过程

 1. 生成查询条件区间，首先将查询条件转换为条件区间，即便是单个值的查询条件也会被转换为条件区间
 2. 递归交集判断：以递归的形式依次对条件区间和数值区间做交集判断，如果条件区间和数值区间没有交集，就会通过剪枝算法优化整段的MarkRange,
 如果有交集，且MarkRange步数大于8，继续递归，如果有交集，MarkRange不可再分，记录MarkRange并返回
 3. 合并MarkRange

4.ReplicatedMergeTree

4.1ReplicatedMergeTree是什么

ReplicatedMargeTree是以去重为目的设计的，它在合并分区时删除重复的数据

处理逻辑
①ReplicatedMergeTree是以OrdeBy排序键作为重复数据的唯一键
②只有在合并区间的时候才会触发删除重复数据，且同一分区的重复数据会被删除，不同分区的重复数据不会被删除
③在去重时，已经OrderBy进行排序能够找到相邻的的重复数据
④去重有俩种策略，如果没有ver版本号，保留同一组数据中的最后一行，如果有ver版本号，保留ver字段最大的一行
ReplicatedMergeTree有一些显著特点：
在进行INSERT和ALTER时需要借助Zookeeper的分布式协同能力，且采用多主架构，这些操作会借助zookeeper协同能力被分发至每个副本以本地形式执行，查询时不需要zookeeper

4.2分片和副本

俩种区分方法

从数据层面，例如ClickHouse集群有N个节点，各个节点有一张相同的数据表Y,如果N1和N2的Y的数据完全相同，则它们互为副本，如果完全不同则互为分片
从功能层面，使用副本的只要目的是防止数据丢失，增加数据存储的冗余；使用分片的目的是实现数据的水平切分

5.AggregatingMergeTree

在GroupBy明确的状态下，如果使用MergeTree存储数据，然后通过GROUP BY聚合查询，并利用SUM聚合函数汇总结果，会产生额外的查询开销和存储开销

AggregatingMergeTree是什么

使用是以二进制的形式存储中间状态结果，在写入数据时，需要调用state函数，在查询数据时则需要调用相应的merge函数。
使用OrderBy排序键作为聚合数据的依据在合并分区时会发生数据聚合，且数据只发生在同分区内
在聚合数据时，相同聚合key的多行数据会合并成一行，对于非主键、非聚合方法类型字段，则会取第一行数据

物化视图是什么

与普通视图的不同，普通视图不保存数据，保存的仅仅是查询语句;物化视图是把查询结果根据相应的引擎存入到磁盘或内存中。引擎一般使用AggregatedMargeTree，与普通mergeTree搭配使用。优点在于查询速度快，因为进行预计算；缺点在于消耗很多的机器资源，由于存放的是历史数据，对历史数据的去重不好用