kylincube分析

在本篇博客中,我将给大家带来关于Kylin的Cube方面的分析,其中包括如何去查看Cube中Cuboid统计信息,Cube大小等,但是不涉及Cube方面的优化。如果对Cube优化比较感兴趣的话,可以去查阅我之前写的关于Cube优化的文章。

 

1.      Cuboid,Cube和Segment理解

什么是Cuboid?什么是Cube?什么是Segment?

我们这里简单说,不搞专业术语,不然人心惶惶的。比如你的模型有3个维度:

国家,省,市。

 

那么对于维度的每一种组合,比如“国家,省,市”查询的结果就是一个Cuboid,“国家,省”查询的结果是另一个Cuboid。

 

那么Cube就是上面所有维度组合的Cuboid的集合。

 

我们知道Cube的数据来源可以是Hive,那么对于一些Hive的表中的数据是不断增长的,比如每小时或每天等周期增长。Kylin应对这种场景,引入了增量构建Cube的功能,无需重复地处理之前已经处理过的历史数据,提升Cube的构建速度。

 

到这里,这样我就可以顺理成章地抛出Segment的概念,即一个Segment就是使用指定起始和结束时间的数据来源构建Cube,即代表一段时间内源数据的预计算结果。我们不难推断出一个Cube被划分为多个Segment。一个Segment的起始时间等于它之前那个Segment的结束时间,同理,它的结束时间等于它后面Segment的起始时间。每个Segment除了数据源时间范围不同,其他结构定义,构建过程,优化方法,存储方式等一样。

 

2.      Cuboid分析

Apache Kylin提供了一个工具,用来检查Cube中Cuboid的详细信息。下面我们将具体分析如何使用此工具,以及分析产生的结果。

当我们Cube构建成功后,就可以执行如下命令:

 

bin/kylin.shorg.apache.kylin.engine.mr.common.CubeStatsReader test_cube

备注:test_cube为Cube的名称

 

产生的结果如下:

============================================================================

Statistics of test_cube[19700101000000_20170101000000]

 

Cube statistics hll precision: 14

Total cuboids: 3

Total estimated rows: 180

Total estimated size(MB):0.0013949871063232422

Sampling percentage:  100

Mapper overlap ratio: 1.45

Mapper number: 0

Length of dimensionIDC_INFRASTRUCTURE_DB.HDFS_META.USERNAME is 1

Length of dimension IDC_INFRASTRUCTURE_DB.HDFS_META.GROUPNAMEis 1

|---- Cuboid 11, est row: 91, est MB: 0

   |---- Cuboid 01, est row: 43, est MB: 0, shrink: 47.25%

   |---- Cuboid 10, est row: 46, est MB: 0, shrink: 50.55%

----------------------------------------------------------------------------

============================================================================

Statistics of test_cube[20170101000000_20170501000000]

 

Cube statistics hll precision: 14

Total cuboids: 3

Total estimated rows: 211

Total estimated size(MB): 0.0016336441040039062

Sampling percentage:  100

Mapper overlap ratio: 1.4218009478672986

Mapper number: 0

Length of dimensionIDC_INFRASTRUCTURE_DB.HDFS_META.USERNAME is 1

Length of dimensionIDC_INFRASTRUCTURE_DB.HDFS_META.GROUPNAME is 1

|---- Cuboid 11, est row: 100, est MB: 0

   |---- Cuboid 01, est row: 55, est MB: 0, shrink: 55%

   |---- Cuboid 10, est row: 56, est MB: 0, shrink: 56%

----------------------------------------------------------------------------

============================================================================

Statistics of test_cube[20170501000000_20170801000000]

 

Cube statistics hll precision: 14

Total cuboids: 3

Total estimated rows: 305

Total estimated size(MB):0.0023670196533203125

Sampling percentage:  100

Mapper overlap ratio: 2.455737704918033

Mapper number: 0

Length of dimensionIDC_INFRASTRUCTURE_DB.HDFS_META.USERNAME is 1

Length of dimensionIDC_INFRASTRUCTURE_DB.HDFS_META.GROUPNAME is 1

|---- Cuboid 11, est row: 168, est MB: 0

   |---- Cuboid 01, est row: 67, est MB: 0, shrink: 39.88%

   |---- Cuboid 10, est row: 70, est MB: 0, shrink: 41.67%

----------------------------------------------------------------------------

 

可以看到这个Cube有三个Segment,包括每个Segment的分析结果:

test_cube[19700101000000_20170101000000]

test_cube[20170101000000_20170501000000]

test_cube[20170501000000_20170801000000]

 

我们只需分析其中一个Segment的内容即可,其他相似。

============================================================================

Statistics of test_cube[19700101000000_20170101000000]

 

Cube statistics hll precision: 14

Total cuboids: 3

Total

--------------------- 本文来自 菠萝大数据梦工厂 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/jiangshouzhuang/article/details/77926440?utm_source=copy

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值