ClickHouse
ClickHouse
LittleMagics
Flinker @ JD.com
展开
-
漫谈SIMD、SSE指令集与ClickHouse向量化执行
前言ClickHouse之所以会像闪电一样快("blazing fast"),是多方面优化的结果,包括且不限于:高效且磁盘友好的列式存储,高效的数据压缩,精心设计的各类索引,并行分布式查询,运行时代码生成等。另外,ClickHouse为了最大限度地压榨硬件——尤其是CPU——的性能,实现了向量化查询执行(vectorized query execution)机制。这个名词相对于上面的那些可能没...原创 2020-08-13 23:47:58 · 4152 阅读 · 3 评论 -
解读ClickHouse日志中的SQL查询计划
截至目前,ClickHouse并未在正式版本中提供查看查询计划的原生EXPLAIN语法。虽然GitHub上对应的Pull Request已经实现了,但是还没有发布,需要自行编译新版源码才能享受到便利。不过,我们可以通过ClickHouse的日志间接地读出每条SQL的查询计划,借助clickhouse-client,命令形式如下:clickhouse-client -h <host> ...原创 2020-08-09 23:22:38 · 4211 阅读 · 0 评论 -
配置ClickHouse分布式DDL记录自动清理
Saturday night,继续超短文模式。在ClickHouse集群中,我们可以在DDL语句上附加ON CLUSTER <cluster_name>的语法,使得该DDL语句执行一次即可在集群中所有实例上都执行,简单方便。每执行一条分布式DDL,会在配置文件中<distributed_ddl><path>指定的ZooKeeper路径上写一条执行记录(路径默认...原创 2020-08-01 23:44:04 · 3673 阅读 · 0 评论 -
基于ClickHouse的用户行为(路径)分析实践
前言ClickHouse为用户提供了丰富的多参聚合函数(parametric aggregate function)和基于数组+Lambda表达式的高阶函数(higher-order function),将它们灵活使用可以达到魔法般的效果。在我们的体系中,ClickHouse定位点击流数仓,所以下面举几个用它来做用户行为(路径)分析的实战例子,包括:路径匹配智能路径检测有序漏斗转化用户...原创 2020-07-03 20:57:31 · 3725 阅读 · 0 评论 -
利用Grafana与系统表监控ClickHouse查询
前言我们往往需要关心数据库的查询执行情况,特别是慢查询。本文简述配置ClickHouse查询监控的一种傻瓜方法。开启查询日志打开各个ClickHouse实例的users.xml,在当前使用的profile(如default)中加入:<log_queries>1</log_queries>再去各个ClickHouse实例的config.xml中检查一下查询日志的配...原创 2020-06-24 13:58:10 · 3833 阅读 · 2 评论 -
ClickHouse技术分享第二弹(英文讲义)
前言以下是今天为公司小伙伴们做的ClickHouse技术分享的讲义。由于PPT太难做了,索性直接用Markdown来写,搭配Chrome上的Markdown Preview Plus插件来渲染,效果非常好。以下全文奉上,浓缩的都是精华,包含之前写过的两篇文章《物化视图简介与ClickHouse中的应用示例》和《ClickHouse Better Practices》中的全部内容,另外也包含一些...原创 2020-06-10 21:55:56 · 2064 阅读 · 0 评论 -
ClickHouse Better Practices
前言经过一个月的调研和快速试错,我们的ClickHouse集群已经正式投入生产环境,在此过程中总结出了部分有用的经验,现记录如下。看官可去粗取精,按照自己项目中的实际情况采纳之。(版本为19.16.14.65)因为我们引入ClickHouse的时间并不算长,还有很多要探索的,因此不敢妄称“最佳实践”,还是叫做“更佳实践”比较好吧。表相关事项数据类型建表时能用数值型或日期时间型表示的字段...原创 2020-05-31 22:51:26 · 1215 阅读 · 0 评论 -
物化视图简介与ClickHouse中的应用示例
前言最近在搞520大促的事情,忙到脚不点地,所以就写些简单省事的吧。物化视图概念我们都知道,数据库中的视图(view)是从一张或多张数据库表查询导出的虚拟表,反映基础表中数据的变化,且本身不存储数据。那么物化视图(materialized view)是什么呢?英文维基中给出的描述是相当准确的,抄录如下。In computing, a materialized view is a data...原创 2020-05-19 21:09:06 · 11392 阅读 · 8 评论 -
ClickHouse入门技术分享PPT之一
今天为小伙伴们做了ClickHouse入门的技术分享(确实好用),把做的PPT贴在下面当做今日份吧。多图预警~...原创 2020-05-08 23:16:07 · 2006 阅读 · 0 评论 -
ClickHouse复制表、分布式表机制与使用方法
Replication & Sharding在ClickHouse文集的第一篇文章中,笔者介绍了ClickHouse高可用集群的配置方法,并且提到:分布式存储要保证高可用,就必须有数据冗余——即副本(replica)。ClickHouse依靠ReplicatedMergeTree引擎族与ZooKeeper实现了复制表机制,成为其高可用的基础。另外,笔者也提到,ClickHouse像El...原创 2020-04-29 22:05:04 · 11228 阅读 · 1 评论 -
ClickHouse高可用集群的安装与部署
前言ClickHouse是“俄罗斯Google”——Yandex公司在2016年开源的面向OLAP的列式存储数据库,近来发展非常迅猛,国内很多大厂都在生产环境中广泛使用。随着业务体量的扩张,我们的业务人员逐渐有了分析海量用户行为和点击流数据的需求,经过各种调研,最终敲定ClickHouse为最佳方案(成功挤掉了之前有丰富实操经验的Kudu哈哈)。本文就来记录一个C...原创 2020-04-15 22:04:55 · 2510 阅读 · 3 评论
分享