spark hive 任务优化浅谈


在日常的etl开发的过程中,不管是使用spark,或者是hive来做开发,经常会遇见任务跑的特别慢,或者任务出现oom,或者数据量并不大,但是任务就是跑的特别慢等等情况。

关于任务的优化,我将自己工作中用到的一些小的trick分享出来。

数据倾斜

数据倾斜是什么?数据倾斜是在计算数据的时候,数据的分散度不够,大量的数据集中在一台或者几台机器上计算,导致整个计算过程过慢甚至失败。
举个例子,1TB的数据,十台机器并行计算,由于数据分区不合理,9台机器上各承担了10GB的计算任务,剩下910GB的数据在一台机器上。因而负载大的机器,需要的资源过大,运行的时间过长等等问题。

数据倾斜的表现

    • 0
      点赞
    • 0
      收藏
      觉得还不错? 一键收藏
    • 0
      评论

    “相关推荐”对你有帮助么?

    • 非常没帮助
    • 没帮助
    • 一般
    • 有帮助
    • 非常有帮助
    提交
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值