Kylin

yongfeicao

于 2020-07-15 22:02:12 发布

阅读量362

收藏

点赞数

分类专栏： Kylin

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QJQJLOVE/article/details/107370587

版权

Kylin 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、概述

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，它能在亚秒内查询巨大的Hive表。

2、Kylin架构

3、相关概念

OLAP（online analytical processing）从各个方面观察信息，以达到深入理解数据的目的，也称多维分析

OLAP类型

OLAP Cube：MOLAP基于多维数据集，一个多维数据集称为一个OLAP Cube

维度：分析数据的数据的角度

度量：被分析的指标

星型模型：在关系型数据库管理系统中实现的维度模型称为星型模型

事实表：Fact Table

维度表：Dimension Tabel（Kylin里面叫做look-up表）

4、构建cube流程

创建中间表
将中间表的数据均匀分配到不同文件中
创建维度字典表
构建cube
形成Hbase的key-value
将cube data转成HFile格式导入Hbase

cube可以逐层mapreduce构建（一层一个mapreduce），也可以快速构建（逐段构建）

5、构建优化

5.1 使用衍生维度

衍生维度用于在有效维度内将维度表上的非主键维度排除掉，并使用维度表的主键（其实是事实表上相应的外键）来替代它们。Kylin会在底层记录维度表主键与维度表其他维度之间的映射关系，以便在查询时能够动态地将维度表的主键“翻译”成这些非主键维度，并进行实时聚合。

5.2 使用聚合组（Aggregation group）

(1)强制维度（Mandatory），如果一个维度被定义为强制维度，那么这个分组产生的所有Cuboid中每一个Cuboid都会包含该维度。

(2)层级维度（Hierarchy），每个层级包含两个或更多个维度。假设一个层级中包含D1，D2…Dn这n个维度，那么在该分组产生的任何Cuboid中，这n个维度只会以（），（D1），（D1，D2）…（D1，D2…Dn）这n+1种形式中的一种出现。

(3)联合维度（Joint），每个联合中包含两个或更多个维度，如果某些列形成一个联合，那么在该分组产生的任何Cuboid中，这些联合维度要么一起出现，要么都不出现。

注：这些操作可以在Cube Designer的Advanced Setting中的Aggregation Groups区域完成.

5.3 RowKey优化

Kylin会把所有的维度按照顺序组合成一个完整的Rowkey，并且按照这个Rowkey升序排列Cuboid中所有的行。

设计良好的Rowkey将更有效地完成数据的查询过滤和定位，减少IO次数，提高查询速度，维度在rowkey中的次序，对查询性能有显著的影响。

设计原则：

①被用作where过滤的维度放在前边

②基数大的维度放在基数小的维度前边

5.4 并发粒度参数优化

构建引擎根据Segment估计的大小，以及参数“kylin.hbase.region.cut”的设置决定Segment在存储引擎中总共需要几个分区来存储，如果存储引擎是HBase，那么分区的数量就对应于HBase中的Region数量。kylin.hbase.region.cut的默认值是5.0，单位是GB，也就是说对于一个大小估计是50GB的Segment，构建引擎会给它分配10个分区。

用户还可以通过设置kylin.hbase.region.count.min（默认为1）和kylin.hbase.region.count.max（默认为500）两个配置来决定每个Segment最少或最多被划分成多少个分区。

yongfeicao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yongfeicao CSDN认证博客专家 CSDN认证企业博客

码龄7年

暂无认证

96: 原创

8万+: 周排名

226万+: 总排名

5万+: 访问

: 等级

1217: 积分

7: 粉丝

35: 获赞

11: 评论

88: 收藏

私信

关注

热门文章

分类专栏

seatunnel 1篇
Hive 21篇
DBeaver 1篇
Kafka 3篇
Flume 3篇
态势感知 1篇
MySQL 6篇
ClickHouse 1篇
Kylin 1篇
azkaban 1篇
Oozie 1篇
Sqoop 1篇
Hbase 6篇
Zookeeper 4篇
算法 1篇
GitHub 1篇
Redis 6篇
JavaWeb 22篇
Java 8篇

最新评论

seatunnel 2.3.1全流程部署使用
PINK97: 少包，如果你用seatunnel engin的话需要将seatunnel-hadoop3-3.1.4-uber-2.3.3.jar、seatunnel-hadoop3-3.1.4-uber-2.3.3-optional.jar、hive-exec-2.3.9.jar三个jar包放入$SEATUNNEL_HOME/lib下
seatunnel 2.3.1全流程部署使用
QJue: seatunnel有前端界面吗
seatunnel 2.3.1全流程部署使用
William-Xu: 我测试同步mysql数据到hive，hadoop版本3.3.4，hive版本3.1.3，会报错 java.lang.NoSuchMethodError: org.apache.hadoop.hive.metastore.HiveMetaStoreClient.<init>(Lorg/apache/hadoop/hive/conf/HiveConf;) 这个问题遇到过吗
seatunnel 2.3.1全流程部署使用
yongfeicao: 都是3系列的，具体版本记不太清楚了
seatunnel 2.3.1全流程部署使用
William-Xu: 你的hadoop和hive分别是啥版本的

最新文章

2023年3篇

2022年11篇

2021年2篇

2020年80篇

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

yongfeicao 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

打赏作者

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值