Spark-SQL与hive整合【版本spark1.6.0+hive0.14】--Standalone模式

在进行离线大数据处理工程中,使用hive进行运算出现了瓶颈,由于文件太大,集群的block块采用的是默认128M没有进行调整,而且集群规模比较小,只有4个节点,
机器配置:
2台32core,内存14.5G 
1台32core, 内存30.3G 
1台32core, 内存46.1
在进行分析过程中,有大量的left jion和group by  以及sum count HQL各种嵌套[主要是当初设计的不合理,下边的没有经验,按照普通的RDB来使用了],在使用hive分析过程中,文件特别大,会启动很多的mapper,因此需要申请大量的containers需要大量内存,由于内存不足常常导致nodeMannger自杀,(yarn调度配置采用的是默认配置){
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值