ClickHouse使用(五)

分区,索引,标记,压缩数据的协同

你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

1.写入

(1)每一批数据的写入都会生成分区目录–合并属于同一个分区的分区目录–按照index_granularity(默认8192)生成primary.idx一级索引,二级索引,针对每列生成.mrk数据标记文件 和.bin压缩数据文件)
例子:如有 8873898行数据待写入,写入过程中,每次生成一个文件 如 201403_1_1_0,201403_2_2_0…201403_1_34_3
通过 201403 可以看到 分区ID 是201403,写入次数 是 最小1,最大34,说明写入了 34次 level 3,标识自动合并了三次

生成的索引 和 标记文件对齐,标记文件标记了 在 .bin 压缩数据块中的位置
如:
(1)单个间隔(8192条数据)小于64KB,则累计到64KB:
索引0 [0-8192)《=》标记文件0《=》压缩数据块0的偏移量
索引1 [8192-81922)《=》标记文件1《=》压缩数据块0的偏移量
索引2 [8192
2-8192*3)《=》标记文件3《=》压缩数据块0的偏移量
。。。
直到压缩文件大小达到64KB

(2)单个间隔(8192条数据)>64KB<1MB:
索引0 [0-8192)《=》标记文件0《=》压缩数据块0的偏移量

(3)单个间隔(8192条数据)>1MB,按照(2)>64<1M的标准拆分成 多个压缩数据块
索引0 [0-8192)《=》标记文件(0,1,2…)《=》压缩数据块0,1,2的偏移量

2.查询过程

2.1 查询的本质是不断缩小数据范围的过程
理想情况下,一级索引-》二级索引-》标记文件-》压缩数据块

如果where条件中不包含相关信息,借助数据标记,启动多线程同时过去多个数据压缩块来提高效率

2.2 数据标记和压缩数据块的对应关系
(1)多对1 :标记数据(一个间隔数据产生一个标记数据)《=》压缩数据块 一个间隔内的数据未压缩大小size<64KB(多个间隔数据压缩成一个压缩数据块)
(2)一对一:标记数据(一个间隔数据产生一个标记数据)《=》压缩数据块 一个间隔内的数据未压缩大小size>64KB<1M(一个间隔数据压缩成一个压缩数据块)
(3)一对多:标记数据(一个间隔数据产生一个标记数据)《=》压缩数据块 一个间隔内的数据未压缩大小size>1M(一个间隔数据压缩成多个压缩数据块)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值