基于阿里云官网文档-大数据开发治理平台 DataWorks研读+数据质量扩展+相应的大数据组件知识扩展

Kudu也采用了Master-Slave形式的中心节点架构，管理节点被称作Kudu Master，数据节点被称作Tablet Server（可对比理解HBase中的RegionServer角色）。一个表的数据，被分割成1个或多个Tablet，Tablet被部署在Tablet Server来提供数据读写服务。

Kudu Master在Kudu集群中，发挥如下的一些作用：

1. 用来存放一些表的Schema信息，且负责处理建表等请求。

2. 跟踪管理集群中的所有的Tablet Server，并且在Tablet Server异常之后协调数据的重部署。

3. 存放Tablet到Tablet Server的部署信息。

Tablet与HBase中的Region大致相似，但存在如下一些明显的区别点：

Tablet包含两种分区策略，一种是基于Hash Partition方式，在这种分区方式下用户数据可较均匀的分布在各个Tablet中，但原来的数据排序特点已被打乱。另外一种是基于Range Partition方式，数据将按照用户数据指定的有序的Primary Key Columns的组合String的顺序进行分区。而HBase中仅仅提供了一种按用户数据RowKey的Range Partition方式。

3、impala

（1）是什么？

Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。

基于Hive，使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点。

是CDH平台首选的PB级大数据实时查询分析引擎。

（2）优缺点

优点：

1.基于内存运算，不需要把中间结果写入磁盘，省掉了大量的I/O开销。

2.无需转换为Mapreduce，直接访问存储在HDFS，HBase中的数据进行作业调度，速度快。

3.使用了支持Data locality的I/O调度机制，尽可能地将数据和计算分配在

同一台机器上进行，减少了网络开销。

4.支持各种文件格式，如TEXTFILE 、SEQUENCEFILE 、RCFile、Parquet。

5.可以访问hive的metastore，对hive数据直接做数据分析。

缺点：

1.对内存的依赖大，且完全依赖于hive。

2.实践中，分区超过1万，性能严重下降。

3.只能读取文本文件，而不能直接读取自定义二进制文件。

4.每当新的记录/文件被添加到HDFS中的数据目录时，该表需要被刷新。

4、kylin

（1）是什么？

Apache Kylin 是一个开源的分布式存储引擎，最初由 eBay 开发贡献至开源社区。它提供 Hadoop 之上的 SQL 查询接口及多维分析（OLAP）能力以支持大规模数据，能够处理 TB 乃至 PB 级别的分析任务，能够在亚秒级查询巨大的 Hive 表，并支持高并发。

（2）特点

数据源和模型：主要支持Hive、Kafka
构建引擎：早期支持MapReduce计算引擎，新版本支持Spark、Flink计算引擎。除了全量构建外，基于时间的分区特性，支持增量构建。
存储引擎：构建好的Cube以Key-Value形式存储在HBase中，通过优化Rowkey加速查询。每一种维度的排列组合计算结果被保存为一个物化视图，叫做Cuboid.
优化算法:Cube本身是空间换时间，也会根据算法，剪枝优化掉一些多余的Cuboid，需求平衡。
访问接口：支持标准SQL接口，可以对接Zeppelin、Tableau等BI工具。SQL通过查询引擎，可以被路由到对应的Cuboid上。