Kudu学习总结

最新推荐文章于 2024-05-03 06:05:26 发布

烈光

最新推荐文章于 2024-05-03 06:05:26 发布

阅读量598

点赞数

本文链接：https://blog.csdn.net/qq_35522637/article/details/99758110

版权

本文为Kudu学习总结

Kudu是为快速数据的快速分析而生的存储，是专为下一代硬件设计的，可提高跨框架分析性能的，用于构建实时分析应用的原生存储引擎

1）Kudu的特点

Kudu的表定义采用类似于SQL的模式，支持类型: BOOL，INT8，INT16，INT32，INT64，FLOAT，DOUBLE，STRING，BINARY，TIMESTAMP
几个子列可以组成一个组合主键
快速修改表
Kudu本身没有SQL引擎，它只是一个存储层 – “使用你自己的SQL” 例如 Impala或者Spark
Kudu不是一个跑在HDFS上的应用，它是一个替代品，原生的Hadoop存储引擎，期望与HDFS协同工作
Kudu不是要替代HDFS或者HBase，而是为用户提供一个新的选择，用户需为适合的用例选择正确的存储

2）为什么是Kudu
在这里插入图片描述
HDFS的强项：
高效的顺序扫描能力
支持高吞吐的数据追加

HBase的强项：
高效的按行随机存取能力
支持数据的修改

可以“鱼”和“熊掌”兼得吗？
如何实现对实时变化的数据集做高效的数据分析呢（Fast Analysis on Fast Data）？
这时候不妨考虑使用Kudu！

Kudu的设计目标：
1）扫描大数据量时吞吐率高

2）随机访问数据时延时低

3）通过高CPU性能发挥RAM和Flash潜力

4）IO效率高

5）类似的数据库语义（初期支持单行记录的ACID）
6）关系数据模型

1）Kudu基本设计

2）Kudu的元数据管理

高可用的主节点，作为一个tablet的目录 (“META” table)，作为一个编目表 (table schemas，etc)，作为负载均衡器（跟踪服务器的监控状态，重新复制低于副本数的tablet）
为高性能，缓存所有的元数据到内存
客户端保存服务器端的地址，询问主节点得到需要的tablet地址并且缓存这些地址

3）Kudu故障恢复

随从节点短暂失败：领导节点不受影响；故障的随从节点在5分钟之内重启服务器，就可以透明重新加入
领导节点短暂失败：随从节点每1.5秒尝试和领导节点通信一次；3次失败之后，领导者选举，新的领导节点会在很短的时间内从剩余的节点中选出；故障的领导节点在5分钟之内重启，就可以作为随从节点加入
N 个备份能接受(N-1)/2 的失败数
永久失败：领导者注意到一个随从节点已经死亡超过5分钟，便会删除这个跟随者，而后从Master节点选择一个新的Server做备份并拷贝数据到新的随从节点上

4）性能特点

5）权衡

关注