Kylin将Cube构建任务分解为几个依次执行的步骤,这些步骤包括Hive操作、MapReduce操作和其他类型的操作。如果你有很多Cube构建任务需要每天运行,那么你肯定想要减少其中消耗的时间。本文的优化主要是讲kylin对于join连接性能差,需要通过hive 把各数据源join,生成一个中间表(大宽表,把需要的数据都关联到一个表,可以设计成分区表,增量刷新),然后kylin直接以此表作为数据源来构建model。
参考kylin官网kylin官网
创建Hive的中间平表
这一步将数据从源Hive表提取出来(和所有join的表一起)并插入到一个中间平表。如果Cube是分区的,Kylin会加上一个时间条件以确保只有在时间范围内的数据才会被提取。你可以在这个步骤的log查看相关的Hive命令,比如:
hive -e "USE default;
DROP TABLE IF EXISTS kylin_intermediate_airline_cube_v3610f668a3cdb437e8373c034430f6c34;
CREATE EXTERNAL TABLE IF NOT EXISTS kylin_intermediate_airline_cube_v3610f668a3cdb437e8373c034430f6c34
(AIRLINE_FLIGHTDATE date,AIRLINE_YEAR int,AIRLINE_QUARTER int,...,AIRLINE_ARRDELAYMINUTES int)
STORED AS SEQUENCEFILE
LOCATION 'hdfs:///kylin/kylin200instance/kylin-0a8d71e8-df77-495f-b501-03c06f785b6c/kylin_intermediate_airline_cube_v3610f668a3cdb437e8373c034430f6c34';

本文探讨了如何通过在Hive中创建中间大宽表来优化Kylin的Cube构建过程,以提高性能。Kylin首先提取源表数据,然后进行数据重分布,利用高基数列进行数据预分类,从而减少构建时间。此外,文章还介绍了Kylin的其他优化步骤,如构建维度字典、保存cuboid统计信息以及逐步构建多维cuboid。
最低0.47元/天 解锁文章
1919

被折叠的 条评论
为什么被折叠?



