clickhouse

最新推荐文章于 2024-05-09 15:07:51 发布

远方时光

最新推荐文章于 2024-05-09 15:07:51 发布

阅读量321

点赞数

分类专栏： OLAP 文章标签：大数据 nosql sql

本文链接：https://blog.csdn.net/qq_36213530/article/details/116985822

版权

OLAP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

clickhouse

特点
1 列式存储
分析型聚合性能好
   压缩比高因为同一列的数据类型一样
   同样数据占空间小磁盘和缓存使用率高

2 DBMS
管理能力好支持标准的SQL 开窗函数不支持

3 多样化引擎
最常见

4 高吞吐写
顺序写入到临时分区中在后台进行异步合并

5 并发查询
利用多线程并发查询多个分区
       问题单条利用多个线程不适合多条sql并发执行 qps不高低频高复杂度大数据量的查询

6 更适合单表操作，多表join性能一般

数据类型 (使用时大小写敏感)
Long Int64 UInt64 带U的没有负值
   Integer Int32 UInt32 带U的没有负值
   decimal Decimal32(s) Decimal64(s) Decimal128(s) |Decimal(7,2) Decimal(16,2) Decimal(36,2) 汇率日利率
   varchar String
   date Date DateTime DateTime64

表引擎

TinyLog 小文件
   Memory 内存

   MergeTree (最重要)
   支持分区（单机按目录物理分区）缩小数据范围 where 加入分区条件
   primary key 只是一个一级索引不是唯一主键 (where 中进行筛选用的)
       order by 必填项影响你的存储顺序 primarykey必须是order by的前缀

       二级索引（实验性） where 条件中使用
       TTL 数据的时效性
       遇到达到失效时间不是立即生效随着MergeTree 后台合并来进行时效建议使用天级及以上失效周期的字段建议使用分区字段

       查询执行计划
       clickhouse-client --send_logs_level=trace <<< 'select * from test1.t_order_mt where total_amount > toDecimal32(900., 2)'

       手动触发合并操作
       optimize table xxxx final

ReplacingMergeTree

去重以order by 字段为准维度列， ReplacingMergeTree(版本列)，版本列最大的保留，版本列相同留最新的

SummingMergeTree

汇总统计以order by 字段为准维度列 , SummingMergeTree(聚合列)，除了维度列和聚合列，留最老的

共同问题： 1. 范围有限分区内字段聚合和去重

2. 时效有延迟必须触发分区合并才进行聚合和去重

3. 手动触发 optimize table xxxx final

副本
ReplacatedMergeTree(zk_path,rep_name)
ReplacatedReplacingMergeTree(zk_path,rep_name,版本列)
ReplacatedSummingMergeTree(zk_path,rep_name,聚合列)

基于zk ，利用zk观察里面的日志，来获得别的副本的最新数据

配置： metrika.xml 配置zookeeper的地址就行了
两个互为副本的表
zk_path 必须一致 /clickhouse/tables/{shard}/table_name
rep_name 必须不一致

集群
   本地表存储真正数据
       分布式表代理工作不存储数据

       metrika.xml 配置一个集群
       internal_replication true 自己管理副本集群不管得用复制的本地表官方推荐 false交给集群管理普通表就可以

   distribute 表分发读请求到所有的shard中，如果shard有多副本选error_count最小如果error_count相同默认随机也可以改成顺序

distribute 表分发写请求根据分区键取模发到不同的shard中

写入到
sparkstreaming 写入clickhouse 使用写入通用jdbc方法地址不同 driver不同而已

远方时光

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
clickhouse

clickhouse特点1 列式存储分析型聚合性能好压缩比高因为同一列的数据类型一样同样数据占空间小磁盘和缓存使用率高 2 DBMS 管理能力好支持标准的SQL 开窗函数不支持 3 多样化引擎最常见4 高吞吐写顺序写入到临时分区中在后台进行异步合并 5 并发查询...
复制链接

扫一扫