数据仓库之【商品订单数据数仓】12:项目优化

57 篇文章 2 订阅 ¥59.90 ¥99.00
37 篇文章 0 订阅 ¥59.90 ¥99.00
本文介绍了优化数据仓库的六个关键步骤,包括通过Sqoop的参数调整提升数据采集效率,集群Queue队列管理以保障线上任务稳定,避免任务启动时间过于集中的问题,使用Hive on Tez提升计算性能,引入Impala实现快速交互查询,以及探讨了面对Hive表结构变动的兼容性解决方案。
摘要由CSDN通过智能技术生成

一、Sqoop数据采集参数优化

默认情况下Sqoop采集数据只会生成一个map任务,采集性能会比较低,我们可以通过splitBy指定一个数字类型的列,再去修改num-mappers的值,这样就可以提高采集性能了,一般可以将num-mappers设置为5~10个。

二、集群Queue队列优化

针对大数据集群的资源可以分为多个队列,可以分为一个online队列,online表示线上的意思,这里面会执行线上的任务,还有一个offline队列,这个里面执行离线任务
针对我们的数仓任务可以在离线队列中执行,不影响线上资源队列中任务的执行。
否则可能会由于数仓每天凌晨集中启动很多任务造成资源抢占,影响线上任务的稳定性。

三、避免任务启动时间过于集中

不要把所有的任务都配置在00:30开始启动
可以规划在00:30~5:00之间,对任务进行分流,因为集群资源是一定的,同时启动太多任务会造成资源抢占,抢不到资源的任务还是 要等待。
大部分离线任务只要保证能在早上9点之前执行完毕,不影响业务人员上班的时候看数据指标就可以了。

四、Hive on Tez

如果要提高hive的计算性能,可以考虑替换底层默认的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

做一个有趣的人Zz

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值