来这里找志同道合的小伙伴!
作 者 简 介
安海雄,京东系统架构师,从事架构设计与开发工作,熟悉各种开源软件架构。在Web开发、架构优化上有较丰富实战经历。
>>>>
一、背景
提到大数据不得不提Hadoop,当下的Hadoop已不仅仅是当初的HDFS + MR(MapReduce)这么简单。基于Hadoop而衍生的Hive、Pig、Spark、Presto、Impala等一系列组件共同构成了Hadoop生态体系。Hadoop生态为今天的大数据领域提供着稳定可靠的数据服务。
Hadoop生态体系解决了大数据界的大部分问题,当然其也存在缺点。Hadoop体系的最大短板在于数据处理时效性。基于Hadoop生态的数据处理场景大部分对时效要求不高,按照传统的做法一般是 T + 1 的数据时效。即 Trade + 1,数据产出在交易日 + 1 天。
ClickHouse的产生就是为了解决大数据量处理的时效性。
>>>>
二、概述
Clickhouse,专为在线数据分析而设计。官方提供的文档表明,ClickHouse 日处理记录数“十亿级”。
1.特性
采用列式存储
数据压缩
基于磁盘的存储,大部分列式存储数据库为了追求速度,会将数据直接写入内存,按时内存的空间往往很小
CPU利用率高,在计算时会使用机器上的所有CPU资源
支持分片,并且同一个计算任务会在不同分片上并行执行,计算完成后会将结果汇总
支持SQL,SQL几乎成了大数据的标准工具,使用门槛较低
支持联表查