Clickhouse学习整理

Foools

已于 2022-03-23 22:46:33 修改

阅读量1.8k

点赞数 1

分类专栏：大数据文章标签：大数据 clickhouse 数据仓库

于 2022-03-23 22:46:02 首次发布

本文链接：https://blog.csdn.net/Foools/article/details/123698613

版权

本文详细介绍了Clickhouse，一种用于在线分析处理查询（OLAP）的列式存储数据库，适用于大体量数据分析场景。文章涵盖了Clickhouse的基本概念、数据类型、表引擎如MergeTree及其优化、SQL操作、副本与分片集群以及高级特性和查询优化策略。重点讨论了MergeTree引擎的存储和索引机制，以及如何通过建表和查询优化提升性能。

摘要由CSDN通过智能技术生成

前言

吃水不忘挖井人，我看的视频课：https://www.bilibili.com/video/BV1Yh411z7os?spm_id_from=333.337.search-card.all.click
我看的参考书是下面这本，整体介绍很全面，但是不用全都读，需要的地方看一看就好，有几章废话很多…但是整体质量不错
在这里插入图片描述

Clickhouse学习笔记

clickhouse：列式存储数据库，C++编写，主要用于在线分析处理查询（OLAP），支持SQL，多主架构（客户端访问任何一个节点效果相同）

适合的场景：大体量，数据分析类场景

不支持事务，不擅长按行删除

简述

列式存储：对于聚合，计数等等操作速度更快；每列数据类型相同，压缩更快

引擎多样化：支持合并树，日志，接口，其他四大类引擎

高写入能力：使用类LSM TREE结构，数据写入后定期在后台合并，数据写入全部是顺序append写

数据分区与线程级并行：clickhouse可以将数据分为多个分区，多个索引粒度，可以支持多个CPU核心一起处理数据处理，单条数据查询速度快（非常占用CPU）

查询速度：单表查询速度优于关联查询，差距大（因为clickhouse的join实现是通过将右表完全加载入内存，然后用左表每一条数据去对应，所以速度很慢。一般用in代替join/能过滤先过滤/右边放小表）

数据类型

Int32 对应java的32位int

Uint32 对应从0开始的int [0:4294967295]

Float32 对应java的float

布尔型一般用Uint8代替

保证精度的浮点数 Decimal64(s)，相当于Decimal(18-s,s)，有效位数为1~18，s表示小数位

枚举类型：只能存储定义中列出的值

CREATE TABLE t_enum
(
   x Enum8('hello' = 1, 'world' = 2)
)
ENGINE = TinyLog;

如果需要看到对应行的数值，则必须将 Enum 值转换为整数类型 
hadoop102 : SELECT CAST(x, 'Int8') FROM t_enum;

时间类型 Date，Datetime，Datetime64

表引擎

TinyLog

以列文件的形式保存在磁盘上，不支持索引，没有并发控制。一般保存少量数据的小表，生产环境上作用有限。可以用于平时练习测试用。

不支持分区，只有每列对应的.bin文件，没有.mrk文件，不支持索引

Memory

内存引擎，数据以未压缩的原始形式直接保存在内存当中，服务器重启数据就会消失。读写操作不会相互阻塞，不支持索引。简单查询下有非常非常高的性能表现

Memory表更为广泛的应用场景是在ClickHouse的内部，它会作为集群间分发数据的存储载体来使用。例如在分布式IN查询的场合中，会利用Memory临时表保存IN子句的查询结果，并通过网络将它传输到远端节点。

MergeTree

支持索引和分区，写入数据后根据后台线程定期合并数据片段

物理存储中包含.idx索引文件，.mrk列字段标记文件，.bin数据文件（一列对应一个bin文件，写入bin文件之前先经过默认LZ4压缩）

MergeTree通过标记文件建立了 primary.idx稀疏索引与.bin数据文件之间的映射关系。即首先通过稀疏索引(primary.idx)找到对应数据的偏移量信息(.mrk)，再通过偏移量直接从.bin文件中读取数据。

稀疏索引一行索引对应一段数据，而不是一行

建表

create table t_order_mt3(
  id UInt32,
	sku_id String,
	total_amount Decimal(16

最低0.47元/天解锁文章

Foools

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Clickhouse学习整理

前言吃水不忘挖井人，我看的视频课：https://www.bilibili.com/video/BV1Yh411z7os?spm_id_from=333.337.search-card.all.click我看的参考书是下面这本，整体介绍很全面，但是不用全都读，需要的地方看一看就好，有几章废话很多…但是整体质量不错Clickhouse学习笔记clickhouse：列式存储数据库，C++编写，主要用于在线分析处理查询（OLAP），支持SQL，多主架构（客户端访问任何一个节点效果相同）适合的场景：大体
复制链接

扫一扫

专栏目录