clickhouse 特性——clickhouse 基础篇(一)

列式存储

列式存储的目的有两个,一是缩小数据扫描范围,二是减少数据传输大小, 因此列存储和数据压缩通常是伴生的,列存储是数据压缩的前提。列存储的好处简单总结如下:

  • 将I/O限制为实际需要的数据,仅加载需要访问的列。
  • 节省空间,列存储更容易压缩。
  • 便于压缩编码。
  • 适用于向量化执行引擎。

Parquet 目前比较最流行的列式存储,提供了高效的列式存储数据表达能力,目前在大数据存储生态中被各个开源项目广泛使用,下边是 Parquet 文件存储模型图:image.png
各组件功能说明:
image.png
clickhouse 的默认存储格式是 Parquet, 并且支持 Parquet 格式的文件操作,包括导入导出 clickhouse。

向量化查询执行引擎

数据库查询执行模型主要有3种:火山模型(Volcano Model)、物化模型(Materializa-tion Model)、向量化模型(Vectoried Model)。
火山模型

  • 缺点:火山模型就是将SQL 转化为一棵语法树,需要一个节点一个节点的解析,每个节点都有一个输入和输出数据,每次只能处理一条数据,效率低,我们常用的 MySQL 就是该模型。
  • 优点: 处理逻辑清晰,每个节点只要关心自己的处理逻辑即可,耦合性低。

物化模型

  • 每个节点一次处理所有的输入,处理完之后将所有结果一次性输出。

向量化模型

  • 每个节点每次处理一批数据,而不是所有数据和一条数据,属于火山模型和物化模型的折中。clickhouse 和 Presto 和许多其他 OLAP 系统就是使用的该模型。
  • 在向量化模型中,每次处理包含多行记录的一批数据,每一批数据中的每一列都会被存储为一个向量(一个原始数据类型的数组),从而极大地减少了执行过程中的方法调用、反序列化和不必要的if-else操作,大大减少了CPU的使用时间,如下图所示:

image.png
从上图我们也可以看出要想使用向量化查询,我们就必须使用列式存储。
向量化模型充分利用了现代计算机的向量化计算:
VectorWise的基本思想

  • 将压缩的列数据整理成现代CPU容易处理的数据向量模式,利用现代CPU的SIMD(Single Instruction Multiple Data,单指令多数据流)技术,每次处理一批向量数据,极大地提高了处理效率。
  • 单指令流(Single Instruction)是指同时只能执行一种操作,多数据流(Multiple Data)则是指在一组同构的数据(通常称为数据向量)上进行操作。

clickhouse 领先其他 OLAP 引擎的特性之一

  • 最大限度地提高硬件(尤其是CPU)的性能,实现了向量化查询执行(Vectorized Query Execution)机制(也叫向量化计算(Vectorization)、向量化操作(Vectorized Operation)、向量编程(Vector Programming)等),将多次for循环计算转化为一次并行计算。

数据压缩

数据压缩的本质就是找出数据的规律,将相似的数据以某种计算方式进行压缩,而列式存储恰恰就是将相似的数据放在一起,这就使得数据压缩效率和压缩比更高。
这进而带来了许多好处:

  • 节省大量存储空间,降低存储成本
  • 读取压缩后的数据量小,磁盘读取速度快
  • 压缩算法按需定制,支持多种不同的压缩算法
  • 同样大小的内存,可以存储更多的数据,缓存效果更好

使用磁盘

内存是昂贵和有限的, clickhouse 不仅支持将数据存储在内存和SSD中,还支持将数据存储在磁盘上。

支持SQL

一个好的OLAP 系统必定是支持类似传统 SQL 的使用方式,当然 clickhouse 对 SQL 的支持比较友好,而且还在不断完善中。

实时数据更新

ClickHouse支持在表中定义主键和排序键,以顺序写入的方式写入 MergeTree 中。在进行 where 范围查询时,可以快速的定位对应数据块,加速查询。

  • 15
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。
ClickHouse是一个开源的列式数据库管理系统,具有以下特点: 1. 列式存储:ClickHouse以列的方式存储数据,这样可以提高查询性能和数据压缩比率。 2. 支持多种表引擎:ClickHouse提供了多种表引擎,包括TinyLog、Memory和MergeTree等,可以根据不同的需求选择适合的表引擎。 3. 分区功能:MergeTree表引擎支持按照特定字段进行分区,可以提高查询性能和数据管理的灵活性。 安装ClickHouse可以通过多种方式进行,包括源码编译、预编译压缩包、Docker镜像和RPM等。单节点部署可以通过使用yum命令进行安装和启动服务。在安装完成后,可以修改数据和日志文件目录来满足实际需求。 总结来说,ClickHouse是一个高性能的列式数据库管理系统,具有灵活的表引擎和分区功能,可以通过多种方式进行安装和部署。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [【ClickHouse基础篇】](https://blog.csdn.net/liuhehe123/article/details/124082391)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [ClickHouse基础](https://blog.csdn.net/weixin_52189442/article/details/120490299)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一切如来心秘密

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值