围绕Hadoop的大数据生态圈,组件繁多,各自负责解决相应的大数据处理需求,Hadoop底层以HDFS来完成数据存储任务,而数据的读写管理,还需要匹配到相应的组件去支持。今天的大数据开发学习分享,我们来对Hbase、Kudu和ClickHouse做个简单的对比。
Hbase作为一款Nosql也是Hadoop生态圈的核心组件,它海量的存储能力,优秀的随机读写能力,能够处理一些HDFS不足的地方。
Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),能够使用SQL查询实时生成分析数据报告,它同样拥有优秀的数据存储能力。
Apache Kudu是Cloudera Manager公司16年发布的新型分布式存储系统,结合CDH和Impala使用可以同时解决随机读写和sql化数据分析的问题,分别弥补HDFS静态存储和Hbase Nosql的不足。
1、安装部署方式对比
具体的安装步骤不过多赘述,这里只简要比较安装过程中需要依赖的外部组件。
Habse安装
依赖HDFS作为底层存储插件依赖Zookeeper作为元数据存储插件
Kudu安装
依赖Impala作为辅助分析插件依赖CDH集群作为管理插件,但是不是必选的,也可以单独安装
Clickhouse安装
依赖Zookeeper作为元数据存储插件和Log Service以及表的catalog service
2、组成架构对比