大数据之-Kylin搭建

最新推荐文章于 2023-07-28 20:58:21 发布

带着希望活下去

最新推荐文章于 2023-07-28 20:58:21 发布

阅读量1.1k

点赞数

分类专栏：大数据文章标签：深度优先 leetcode 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35746739/article/details/121367540

版权

大数据专栏收录该内容

33 篇文章 0 订阅

订阅专栏

在搭建Kylin的时候，需要确保HDFS、yarn、hive、zookeeper、hbase等部署完毕。

1.安装

下载Kylin的安装包地址 kylin下载

2.进行安装kylin操作

1. 进行解压到指定位置 /opt/module

2. mv /opt/module/apache-kylin-3.0.1-bin /opt/module/kylin

兼容问题解决

上面部署完后后，我们进行启动会发现 kylin出现异常报错，我们需要进行需要一些相关配置

修改/opt/module/kylin/bin/find-hbase-dependency.sh

因为hbase jar包的名称有做变动

3.启动Kylin

（1）启动Kylin之前，需先启动Hadoop（hdfs，yarn，jobhistoryserver）、Zookeeper、Hbase

（2）启动Kylin

 bin/kylin.sh start

web页面查看kylin

用户名：ADMIN 密码:KYLIN

4.Kylin使用

4.1 创建项目

4.2创建model（星型model）

指定事实表

选择维度表，并指定事实表和维度表的关联条件，点击Ok

指定维度字段，并点击Next

指定度量字段，并点击Next

指定事实表分区字段（仅支持时间分区），点击Save按钮，model创建完毕

5.创建cube

填写cube信息，选择cube所依赖的model，并点击next

选择所需的维度

选择所需度量值

cube自动合并设置，cube需按照日期分区字段每天进行构建，每次构建的结果会保存在Hbase中的一张表内，为提高查询效率，需将每日的cube进行合并，此处可设置合并周期。

Kylin高级配置（优化相关，暂时跳过）

Kylin相关属性配置覆盖

保存创建cube

6.构建cube

查看build的进度

1）每日全量维度表及拉链维度表重复Key问题如何处理

方案一：在hive中创建维度表的临时表，该临时表中只存放维度表最新的一份完整的数据，在kylin中创建模型时选择该临时表作为维度表。

方案二：与方案一思路相同，但不使用物理临时表，而选用视图（view）实现相同的功能。

2）如何实现每日自动构建cube

Kylin提供了Restful API，因次我们可以将构建cube的命令写到脚本中，将脚本交给azkaban或者oozie这样的调度工具，以实现定时调度的功能。

Kylin Cube构建原理

1）逐层构建算法（layer）

算法优点：
1）此算法充分利用了MapReduce的优点，处理了中间复杂的排序和shuffle工作，故而算法代码清晰简单，易于维护；
2）受益于Hadoop的日趋成熟，此算法非常稳定，即便是集群资源紧张时，也能保证最终能够完成。
算法缺点：
1）当Cube有比较多维度的时候，所需要的MapReduce任务也相应增加；由于Hadoop的任务调度需要耗费额外资源，特别是集群较庞大的时候，反复递交任务造成的额外开销会相当可观；
2）由于Mapper逻辑中并未进行聚合操作，所以每轮MR的shuffle工作量都很大，导致效率低下。
3）对HDFS的读写操作较多：由于每一层计算的输出会用做下一层计算的输入，这些Key-Value需要写到HDFS上；当所有计算都完成后，Kylin还需要额外的一轮任务将这些文件转成HBase的HFile格式，以导入到HBase中去；
总体而言，该算法的效率较低，尤其是当Cube维度数较大的时候。

2）快速构建算法

该算法的主要思想是，每个Mapper将其所分配到的数据块，计算成一个完整的小Cube 段（包含所有Cuboid）。每个Mapper将计算完的Cube段输出给Reducer做合并，生成大Cube，也就是最终结果。

快速算法主要有两点不同：

1） Mapper会利用内存做预聚合，算出所有组合；Mapper输出的每个Key都是不同的，这样会减少输出到Hadoop MapReduce的数据量，Combiner也不再需要；

2）一轮MapReduce便会完成所有层次的计算，减少Hadoop任务的调配。

带着希望活下去

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据之-Kylin搭建

在搭建Kylin的时候，需要确保HDFS、yarn、hive、zookeeper、hbase等部署完毕。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

带着希望活下去 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。