在线联机分析OLAP:impala+kudu,灵活的、实时SQL分析
KUDU之前
通常数据分析:需要利用Hbase的快速插入、快读random access的特性来导入数据,HBase也允许用户对数据进行修改,HBase对于大量小规模查询也非常迅速。同时,用户使用HDFS/Parquet + Impala/Hive来对超大的数据集进行查询分析,对于这类场景, Parquet这种列式存储文件格式具有极大的优势。
然后他们会部署HDFS/Parquet + HBase混合架构
问题:架构较为复杂,而且在维护上也十分困难
用Flume或Kafka或数据导入工具如Datax,导入HBase。涉及到源数据会修改,可能在HBase上对数据做一些修改。然后每隔一段时间(每天或每周)将数据从Hbase中导入到Parquet文件,作为一个新的partition放在HDFS上,最后使用Impala等计算引擎进行查询,生成最终报表。
在Kudu出现之前,Hadoop生态环境中的储存主要依赖HDFS和HBase,追求高吞吐批处理的用例中使用HDFS,追求低延时随机读取用例下用HBase,而Kudu正好能兼顾这两者。
KUDU
Kudu是对HDFS和H