Apache Kylin Buid Cube详细流程

最新推荐文章于 2022-01-26 13:44:54 发布

eric_lee

最新推荐文章于 2022-01-26 13:44:54 发布

阅读量521

点赞数

分类专栏：大数据开发文章标签： kylin

大数据开发专栏收录该内容

113 篇文章 0 订阅

订阅专栏

Build Cube流程主要分为四个阶段：

根据用户的cube信息计算出多个cuboid文件
根据cuboid文件生成htable
更新cube信息
回收临时文件

1.流程一：作业整体描述

把构建Cube的来源表总行数写到指定的HDFS文件中

2.流程二：生成中间临时数据

这一步的操作是根据Cube设计中的定义生成原始数据，这里会新创建一个Hive外部表，然后再根据Cube中定义的星型模型，查询出维度（对于Derived类型的维度使用的是外键）和度量值并插入到新建的表中，标的数据文件（存储在HDFS）作为下一个子任务的输入，它首先根据维度中的列和度量中作为参数的列得到需要出现在该表中的列，然后执行三步hive操作。

（1）如果临时表存在就删除

（2）创建外部表

（3）插入数据

3.流程三：创建事实表的Distinct Columns文件

根据流程二中生成的hive临时表作为输入，计算出表中的每一个出现在事实表中的维度和度量的distinct值，并写入到以列命名的文件中。如果某一个维度列的distinct值比较大，

那么可能导致mapreduce任务执行过程中OOM

4.流程四：构建维度词典

根据流程三生成的distinct colum文件和维度表计算出所有维度的字典。字典是为了节约存储而设计，事实表的每个维度组合都转换成唯一整数而减少内存占用。维度表的的每一行每一列都会得到一个编码id.然后存储id组成的新维表,id和值得映射关系。

5.流程五：保存Cuboid的统计信息

6.流程六：创建HTable

创建Htable时候需要考虑

列族的设置
每个列族的压缩方式
部署coprocessor
HTable中每一个region的大小

hbase中存储的数据key是维度成员的组成，value是对应聚合函数的结果。

7.流程七：计算生成Base Cuboid数据文件

计算BaseCuboid。

8.流程八：计算N层的Cuboid文件

每一层一个mapreduce程序，计算每一程的coboid。

9.流程九：基于内存构建Cube

如果选择In-mem cubing的方式这一步会代替前两步生成cube。

10.流程十：将Cuboid转换成HFile

11.流程十一：将HFile导入到Hbase表中

12.流程十二：更新Cube信息

13流程十三：清理中间表

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

eric_lee CSDN认证博客专家 CSDN认证企业博客

码龄11年

30: 原创

-: 周排名

-: 总排名

20万+: 访问

: 等级

2533: 积分

25: 粉丝

12: 获赞

12: 评论

93: 收藏

私信

关注

热门文章

分类专栏

大数据开发 113篇
大数据运维 51篇
scala&java 30篇
python 4篇
感悟 8篇
书评 2篇

最新评论

Linux搭建Hive On Spark环境(spark-1.6.3-without-hive+hadoop2.8.0+hive2.1.1)
强豪: 有安装包吗
datax
hfc123abc: 为什么windows上运行时间中带有时分秒就会报无法加载主类的错误
hbase row key设计
cvster: 楼主你的图链接失效了
hive学习提纲
星宫社: 感觉直接列一本参考书会比较好，比如《Hive编程指南》美Edward CaprioLo Dean Eampler等著
好hive的5个提示
星宫社回复星宫社: 补充一个参考连接，从join的mr实现来说明 https://blog.csdn.net/qq_26442553/article/details/80865014

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。