ClickHouse-简谈OLAP与ClickHouse
ClickHouse简述
俄罗斯的Yandex公司(被誉为俄罗斯的google)在2016年开源了ClickHouse(C++)。
在第一届易观OLAP大赛中,在用户行为分析转化漏斗场景里,ClickHouse比Spark快了近10倍。在随后几年的大赛中,面对各类新的大数据引擎的挑战, ClickHouse一直稳稳地坐在冠军宝座上。同时在各种OLAP查询引擎评测中,ClickHouse单表查询的速度力压现在流行的各大数据库引擎,尤其是Ad-hoc查询速度一直遥遥领先,因此被国内大量用户和爱好者广泛用在即席查询场景当中。
我们可以在以下网址看到clickhouse与其他常用查询分析引擎的benchmark性能测试
ClickHouse的性能测试https://clickhouse.tech/benchmark/dbms/
clickhouse 是OLAP的列式数据库,vertica是商业的数据仓库,greenplum 是用来做MPP数据分析。
架构和选型分析
随着数据科技的进步,数据分析师早已不再满足于传统的T+1式报表或需要提前设置好维度与指标的 OLAP查询。数据分析师更希望使用可以支持任意指标、任意维度并秒级给出反馈的大数据Ad-hoc查询 系统。这对大数据技术来说是一项非常大的挑战,传统的大数据查询引擎根本无法做到这一点。
在使用hadoop生态构建海量数据下用户行为轨迹分析场景时,常用到以下架构:
架构目标:
1、海量数据
2、实时导入
3、实时查询
4、多维聚合分析
架构缺点:
1、数据的实效性:中间过程经过Kafka、ETL、调度处理,报表的实效性不理想
2、即席分析性能:Hive存储是hdfs文件系统,hdfs不支持随机读写,查询效率