kylin实操入门

最新推荐文章于 2024-06-04 23:28:32 发布

青月数据

最新推荐文章于 2024-06-04 23:28:32 发布

阅读量703

点赞数 1

分类专栏：入门教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39198774/article/details/84563299

版权

入门教程专栏收录该内容

5 篇文章 0 订阅

订阅专栏

先创建一个project

然后选择创建的project

然后点击data Source下的load Hive Table按钮

填写需要的hive表的全称（库名.表名），完成后点击Sync按钮就是数据导入

然后创建一个新的Model

Model Name只能是英文

选择事实表(Fact Table)，可以通过 add lookup Table添加其他表进行关联

可以是inner join 也可以是left join，然后进行join条件的添加

接下来选择会用作维度和度量的列。这里只是选择一个范围，不代

表这些列将来一定要用作Cube的维度或度量，你可以把所有可能会用到

的列都选进来，后续创建Cube的时候，将只能从这些列中进行选择。

选择维度列时，维度可以来自事实表或维度表，如图所示。。

选择度量列时，度量只能来自事实表，如图2-7所示

最后一步，是为模型补充分割时间列信息和过滤条件。如果此模型

中的事实表记录是按时间增长的，那么可以指定一个日期／时间列作为

模型的分割时间列，从而可以让Cube按此列做增量构建

过滤（Filter）条件是指，如果想把一些记录忽略掉，那么这里可以设

置一个过滤条件。Kylin在向Hive请求源数据的时候，会带上此过滤条件。

最后，单击“Save”保存此数据模型，随后它将出现在“Models”的列表中。

创建cube

单击“New”，选择“New Cube”，会开启一个包含若干步骤的向导。

第一页，选择要使用的数据模型，并为此Cube输入一个唯一的名称（必需的）和描述（可选的）（如图2-9所示）；这里还可以输入一个邮件通知列表，用于在构建完成或出错时收到通知。如果不想接收处于某些状态的通知，那么可以从“Notification Events”中将其去掉。

第二页，选择Cube的维度。可以通过以下两个按钮来添加维度。

·“Add Dimension”：逐个添加维度，可以是普通维度也可以是衍生（Derived）维度。

·“Auto Generator”：批量选择并添加，让Kylin自动完成其他信息。使用第一种方法的时候，需要为每个维度起个名字，然后选择表和列

如果是衍生维度的话，则必须是来自于某个维度表，一次可以选择多个列；由于这些列值都可以从该维度表的主键值中衍生出来，所以实际上只有主键列会被Cube加入计算。而在Kylin的具体实现中，往往采用事实表上的外键替代主键进行计算和存储。但是在逻辑上可以认为衍生列来自于维度表的主键。

需要注意的是：维度的选择都是在之前新建模型的时候设计好的，只能减少，不能增加

使用第二种方法的时候，Kylin会用一个树状结构呈现出所有的列，用户只需要勾选所需要的列即可，Kylin会自动补齐其他信息，从而方便用户的操作（如图2-12所示）。请注意，在这里Kylin会把维度表上的列都创建成衍生维度，这也许不是最合适的，在这种情况下，请使用第一种方法。

第三页，创建度量。Kylin默认会创建一个Count（1）的度量。可以单击“+Measure”按钮来添加新的度量。Kylin支持的度量有：SUM、MIN、MAX、COUNT、COUNT DISTINCT、TOP_N、RAW等。请选择需要的度量类型，然后再选择适当的参数（通常为列名）。

重复上面的步骤，创建所需要的度量。Kylin可以支持在一个Cube中添加多达上百个的度量；添加完所有度量之后，单击“Next”

第四页，是关于Cube数据刷新的设置。在这里可以设置自动合并的阈值、数据保留的最短时间，以及第一个Segment的起点时间（如果Cube有分割时间列的话）

第五页，高级设置。在此页面上可以设置聚合组和Rowkey。

为Cube配置参数。和其他Hadoop工具一样，Kylin使用了很

多配置参数以提高灵活性，用户可以根据具体的环境、场景等配置不同

的参数进行调优。Kylin全局的参数值可在conf/kylin.properties文件中进行

配置；如果Cube需要覆盖全局设置的话，则需要在此页面中指定。单

击“+Property”按钮，然后输入参数名和参数值，如图2-18所示，指

定“kylin.hbase.region.cut=1”，这样此Cube在存储的时候，Kylin将会为每个

HTable Region分配1GB来创建一个HTable Region。

然后单击Next跳转到最后一个确认页面，如有修改，则单击“Prev”按

钮返回以修改，最后再单击“Save”按钮进行保存，一个Cube就创建完成了。

创建好的Cube会显示在“Cubes”列表中，如要对Cube的定义进行修

改，只需单击“Edit”按钮就可以进行修改。也可以展开此Cube行以查看更

多的信息，如JSON格式的元数据、访问权限、通知列表等

构建cube

Cube的构建包含如下步骤，由任务引擎来调度执行。

1）创建临时的Hive平表（从Hive读取数据）。

2）计算各维度的不同值，并收集各Cuboid的统计数据。

3）创建并保存字典。

4）保存Cuboid统计信息。

5）创建HTable。

6）计算Cube（一轮或若干轮MapReduce）。

7）将Cube的计算结果转成HFile。

8）加载HFile到HBase。

9）更新Cube元数据。

10）垃圾回收

进行构建操作

监控构建过程

历史数据刷新(只针对增量构建的cube)，刷新完成之后才能进行新数据查询，否则查到的就是旧数据

多个segment，尽量进行合并，优化查询性能和存储性能

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。