（51）Row Key 优化

最新推荐文章于 2023-06-07 17:17:39 发布

大数据开发工程师-宋权

最新推荐文章于 2023-06-07 17:17:39 发布

阅读量354

点赞数

分类专栏：离线数仓文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/song_quan_/article/details/118787770

版权

离线数仓专栏收录该内容

59 篇文章 8 订阅

订阅专栏

Kylin通过有序的Rowkey优化查询性能，过滤维度置于前面，基数大维度领先基数小的。同时，通过调整kylin.hbase.region.cut等参数实现Cuboid数据分片，提升查询速度。并发粒度控制确保每个Segment分区数在预设范围内，优化并发读取。建议针对每个Cube定制并发控制参数以适应不同查询需求。

摘要由CSDN通过智能技术生成

Kylin 会把所有的维度按照顺序组合成一个完整的 Rowkey ，并且按照这个 Rowkey 升序

排列 Cuboid 中所有的行。

设计良好的 Rowkey 将更有效地完成数据的查询过滤和定位，减少 IO 次数，提高查询

速度，维度在 rowkey 中的次序，对查询性能有显著的影响。

Row key 的设计原则如下：

1 ）被用作过滤的维度放在前边。

2）基数大的维度放在基数小的维度前边。

4 并发粒度优化

当 Segment 中某一个 Cuboid 的大小超出一定的阈值时，系统会将该 Cuboid 的数据分片

到多个分区中，以实现 Cuboid 数据读取的并行化，从而优化 Cube 的查询速度。具体的实现

方式如下：构建引擎根据 Segment 估计的大小，以及参数 “ kylin.hbase.region.cut ” 的设置决定

Segment 在存储引擎中总共需要几个分区来存储，如果存储引擎是 HBase ，那么分区的数量

就对应于 HBase 中的 Region 数量。 kylin.hbase.region.cut 的默认值是 5.0 ，单位是 GB ，也就

是说对于一个大小估计是 50GB 的 Segment ，构建引擎会给它分配 10 个分区。用户还可以

通过设置 kylin.hbase.region.count.min （默认为 1 ）和 kylin.hbase.region.count.max （默认为 500 ）

两个配置来决定每个 Segment 最少或最多被划分成多少个分区。

由于每个 Cube 的并发粒度控制不尽相同，因此建议在 Cube Designer 的 Configuration

Overwrites （上图所示）中为每个 Cube 量身定制控制并发粒度的参数。假设将把当前 Cube

的 kylin.hbase.region.count.min 设置为 2 ， kylin.hbase.region.count.max 设置为 100 。这样无论

Segment 的大小如何变化，它的分区数量最小都不会低于 2 ，最大都不会超过 100 。相应地，

这个 Segment 背后的存储引擎（ HBase ）为了存储这个 Segment ，也不会使用小于两个或超

过 100 个的分区。我们还调整了默认的 kylin.hbase.region.cut ，这样 50GB 的 Segment 基本上

会被分配到 50 个分区，相比默认设置，我们的 Cuboid 可能最多会获得 5 倍的并发量。

（注：相关优化，概念性描述，有一些抽象，不太容易理解，可以查阅相关kyline的资料）

大数据开发工程师-宋权

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据开发工程师-宋权 CSDN认证博客专家 CSDN认证企业博客

码龄10年

308: 原创

4万+: 周排名

196万+: 总排名

29万+: 访问

: 等级

3608: 积分

210: 粉丝

99: 获赞

68: 评论

551: 收藏

私信

关注

热门文章

分类专栏

最新评论

Flink CDC数据同步
m0_61571350: 用流过去到了，可以直接计算吗？如果监控到更新或者删除的，要单独处理吗？直接会不会影响指标
FineBI产品简介
永久青铜: 我怎么没有你这个仪表板的样式
FineBI概述
Devil I'm: HAHA CIO
Sql Server CDC配置
爱吃冰的猫: 难道我有20个cdc表发生变动后只能逐个重新开启？这显然不符合实际使用啊
使用Flume消费Kafka数据到HDFS (亲测好用)
天地风雷水火山泽: 按照博客的启动命名执行后，这个flume停不下来，会自行启动？一旦ctrl+C退出后，它不久就会自行启动，这个怎么关闭？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据开发工程师-宋权 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。