Clickhouse学习整理

前言

吃水不忘挖井人,我看的视频课:https://www.bilibili.com/video/BV1Yh411z7os?spm_id_from=333.337.search-card.all.click
我看的参考书是下面这本,整体介绍很全面,但是不用全都读,需要的地方看一看就好,有几章废话很多…但是整体质量不错
在这里插入图片描述

Clickhouse学习笔记

clickhouse:列式存储数据库,C++编写,主要用于在线分析处理查询(OLAP),支持SQL,多主架构(客户端访问任何一个节点效果相同)

适合的场景:大体量,数据分析类场景

不支持事务,不擅长按行删除

简述

列式存储:对于聚合,计数等等操作速度更快;每列数据类型相同,压缩更快

引擎多样化:支持 合并树,日志,接口,其他 四大类引擎

高写入能力:使用类LSM TREE结构,数据写入后定期在后台合并,数据写入全部是顺序append写

数据分区与线程级并行:clickhouse可以将数据分为多个分区,多个索引粒度,可以支持多个CPU核心一起处理数据处理,单条数据查询速度快(非常占用CPU)

查询速度:单表查询速度优于关联查询,差距大(因为clickhouse的join实现是通过将右表完全加载入内存,然后用左表每一条数据去对应,所以速度很慢。一般用in代替join/能过滤先过滤/右边放小表)

数据类型

Int32 对应java的32位int

Uint32 对应从0开始的int [0:4294967295]

Float32 对应java的float

布尔型一般用Uint8代替

保证精度的浮点数 Decimal64(s),相当于Decimal(18-s,s),有效位数为1~18,s表示小数位

枚举类型:只能存储定义中列出的值

CREATE TABLE t_enum
(
   x Enum8('hello' = 1, 'world' = 2)
)
ENGINE = TinyLog;

如果需要看到对应行的数值,则必须将 Enum 值转换为整数类型 
hadoop102 : SELECT CAST(x, 'Int8') FROM t_enum;

时间类型 Date,Datetime,Datetime64

表引擎

TinyLog

以列文件的形式保存在磁盘上,不支持索引,没有并发控制。一般保存少量数据的小表, 生产环境上作用有限。可以用于平时练习测试用。

不支持分区,只有每列对应的.bin文件,没有.mrk文件,不支持索引

Memory

内存引擎,数据以未压缩的原始形式直接保存在内存当中,服务器重启数据就会消失。 读写操作不会相互阻塞,不支持索引。简单查询下有非常非常高的性能表现

Memory表更为 广泛的应用场景是在ClickHouse的内部,它会作为集群间分发数据的 存储载体来使用。例如在分布式IN查询的场合中,会利用Memory临 时表保存IN子句的查询结果,并通过网络将它传输到远端节点。

MergeTree

支持索引和分区,写入数据后根据后台线程定期合并数据片段

物理存储中包含.idx索引文件,.mrk列字段标记文件,.bin数据文件(一列对应一个bin文件,写入bin文件之前先经过默认LZ4压缩)

MergeTree通过标记文件建立了 primary.idx稀疏索引与.bin数据文件之间的映射关系。即首先通过稀疏索引(primary.idx)找到对应数据的偏移量信息(.mrk),再通过偏移量直接从.bin文件中读取数据。

稀疏索引一行索引对应一段数据,而不是一行

建表

create table t_order_mt3(
  id UInt32,
	sku_id String,
	total_amount Decimal(16,2
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值