前言
吃水不忘挖井人,我看的视频课:https://www.bilibili.com/video/BV1Yh411z7os?spm_id_from=333.337.search-card.all.click
我看的参考书是下面这本,整体介绍很全面,但是不用全都读,需要的地方看一看就好,有几章废话很多…但是整体质量不错
Clickhouse学习笔记
clickhouse:列式存储数据库,C++编写,主要用于在线分析处理查询(OLAP),支持SQL,多主架构(客户端访问任何一个节点效果相同)
适合的场景:大体量,数据分析类场景
不支持事务,不擅长按行删除
简述
列式存储:对于聚合,计数等等操作速度更快;每列数据类型相同,压缩更快
引擎多样化:支持 合并树,日志,接口,其他 四大类引擎
高写入能力:使用类LSM TREE结构,数据写入后定期在后台合并,数据写入全部是顺序append写
数据分区与线程级并行:clickhouse可以将数据分为多个分区,多个索引粒度,可以支持多个CPU核心一起处理数据处理,单条数据查询速度快(非常占用CPU)
查询速度:单表查询速度优于关联查询,差距大(因为clickhouse的join实现是通过将右表完全加载入内存,然后用左表每一条数据去对应,所以速度很慢。一般用in代替join/能过滤先过滤/右边放小表)
数据类型
Int32 对应java的32位int
Uint32 对应从0开始的int [0:4294967295]
Float32 对应java的float
布尔型一般用Uint8代替
保证精度的浮点数 Decimal64(s),相当于Decimal(18-s,s),有效位数为1~18,s表示小数位
枚举类型:只能存储定义中列出的值
CREATE TABLE t_enum
(
x Enum8('hello' = 1, 'world' = 2)
)
ENGINE = TinyLog;
如果需要看到对应行的数值,则必须将 Enum 值转换为整数类型
hadoop102 : SELECT CAST(x, 'Int8') FROM t_enum;
时间类型 Date,Datetime,Datetime64
表引擎
TinyLog
以列文件的形式保存在磁盘上,不支持索引,没有并发控制。一般保存少量数据的小表, 生产环境上作用有限。可以用于平时练习测试用。
不支持分区,只有每列对应的.bin
文件,没有.mrk
文件,不支持索引
Memory
内存引擎,数据以未压缩的原始形式直接保存在内存当中,服务器重启数据就会消失。 读写操作不会相互阻塞,不支持索引。简单查询下有非常非常高的性能表现
Memory表更为 广泛的应用场景是在ClickHouse的内部,它会作为集群间分发数据的 存储载体来使用。例如在分布式IN查询的场合中,会利用Memory临 时表保存IN子句的查询结果,并通过网络将它传输到远端节点。
MergeTree
支持索引和分区,写入数据后根据后台线程定期合并数据片段
物理存储中包含.idx
索引文件,.mrk
列字段标记文件,.bin
数据文件(一列对应一个bin文件,写入bin文件之前先经过默认LZ4压缩)
MergeTree通过标记文件建立了 primary.idx稀疏索引与.bin数据文件之间的映射关系。即首先通过稀疏索引(primary.idx)找到对应数据的偏移量信息(.mrk),再通过偏移量直接从.bin文件中读取数据。
稀疏索引一行索引对应一段数据,而不是一行
建表
create table t_order_mt3(
id UInt32,
sku_id String,
total_amount Decimal(16