数仓降本增效

本文探讨了如何降低大数据数仓的计算和存储成本,提出了任务资源优化、集群管理和数据质量校验等措施。通过任务调度分散、模型优化及运行模式选择等方式提升效率,同时关注数据质量以防止无效工作。此外,还强调了环境配置的合理性对整体性能的影响。
摘要由CSDN通过智能技术生成

提示:数仓降本增效的一些方法

一、计算成本

 1. 下线任务或服务

  • 无用的任务及时下线;
  • 重复功能的任务下线;
  • 无用的服务及时停掉(Thrift JDBC/ODBC Server)

2. 任务资源利用率

  • 小任务大资源(使用默认资源/开启了动态资源分配),大部分时间浪费在申请和释放资源上;
  • driver资源过剩: driver内存、核数过多;
  • executor资源过剩: executor内存申请过多、核数过多;
  • 任务的并行度少于总核数, 建议并行度是总核数的2-4倍;
  • 任务资源过少, oom或缩容导致节点回收(运行时间长碰上的几率大);
  • 数据倾斜

3. 集群资源

  • 任务定时分散部署,避免集中运行;
  • 重点任务先运行,不重要的可以低峰期运行;
  • 合理的扩缩容策略;
  • 合理的默认资源配置;
  • 降配资源(master/rds的CPU、内存、磁盘);
  • 非重要集群中应用spot节点, 比如adhoc查询;
  • adhoc集群可非高可用模式, 非工作时段资源降到最低;

4. 数据质量校验

重点的表任务完成后立即进行质量校验,不通过时阻断向下执行,避免下游无意义的跑任务;



5. 模型优化

数仓任务优化整理_盛源

6. 运行模式

client、local模式会占用调度节点的资源, 可能导致调度节点拥堵,造成集群有资源而要等待调度,生产环境最好用cluster模式运行

7. 任务诊断

借助工具对任务进行诊断, 发掘有问题的任务, 并给出优化意见.

二、存储成本

大数据存储成本_盛源_01的博客

三、环境优化

配置合理:

过高,浪费资源

过低,出现木桶效应


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值