kudu
CesarChoy
知识创造未来~~
展开
-
Kudu的介绍及使用
前文: 过往采用Hive的离线处理时效性低,计算任务过于集中,查询效率低。SparkStreaming+Hive的数据清洗线使得多套数据流过于复杂。未来的数据仓库场景越来越趋向于实时数仓。 一、引入 二、架构图 2、架构及数据量 3、文件结构 4、目录结构 5、读写流程及分区策略 三、分区及策略 四、代码 1、通过Spar...原创 2020-03-27 20:48:53 · 1056 阅读 · 0 评论 -
KUDU 的缺点
前文: Kudu的诞生解决了大数据领域的数据更新和OLAP,但是其缺点也是明显,使用时最好考虑如下。 一、情况 服务器情况:5台8Core32内存的服务器 1.1 CPU使用率 1.2 磁盘读流量 1.3 磁盘写 二、说明 2.1 操作 大量更新: 由于我们知道kudu更新的时候会有一个读过程,所以看到在更新时,读是远远大于写的。 但由于读的时候也伴随着CPU的负载的上升,瞬间打满。 2.1.1 第一个峰值说明 更新的数据量大概是近200万的临时...原创 2020-10-19 18:30:31 · 2518 阅读 · 5 评论