问题:
job执行到#3报错
问题分析:
由于报java heap space错,首先想到的是调大reduce、jvm这两个参数(我的另外一篇博文提到),结果还是不奏效。
由于我是身边第一个吃螃蟹的人,只能硬着头皮接着考虑出现问题的原因,心态从焦虑逐渐沉静下来,仔细思考了自己的表
此表仅有两个维度,但是每个维度的基数都特别大,其中一个10000+,另外一个2000000+
后来又经过查看大量资料,发现这种基数超过百万的事实表在#3创建维度字典的时候会有问题(因为这种表就不适合用kylin创建cube,主要是没有按日期或是时间进行分区)
问题解决:
修改配置: AdvancedSetting-->Rowkeys将encoding从dic改为对应的fixed_length、integer后,重新创建job后成功
ps:关于Encoding和Length的设置后续我会专门研究一下,并和大家分享,此次为了尽快建立cube没有深究
update v1