火山引擎Dataleap治理实践:如何降低数仓建设成本

文章介绍了针对数仓建设中的成本治理策略,包括通过火山引擎Dataleap的Hive表成本分析看板定位低频使用数据表,优化资源浪费的任务,以及精细化管理低频使用的字段。通过建立血缘关系树和评估ROI,提出下线、缩减TTL、配置温存和停止解析存储等优化手段,以提升资源效率和降低成本。

背景

存储与计算资源是数仓建设的基础,也是数仓建设中的重要成本支出。而随着数仓建设规模逐渐扩大、时间跨度逐渐拉长,将不可避免的出现数据表、任务、字段的冗余。为了减轻资源负担,降低数仓维护成本,需要对数仓建设成本进行治理与优化。

技术路线

针对数仓建设成本治理的粒度从大到小可以分为:数据表、数据任务、数据表字段。从粗到细的治理优化思路如下:

  1. 当发现低频使用的数据表时,下线对应数据表的同时也删除对应数据任务;
  2. 当数据任务资源浪费严重,针对任务进行对应的代码与资源优化;
  3. 当发现一张表中个别字段使用使用频率很低,停止相关字段的计算与存储。

根据以上的优化思路,首先要解决如何定位低频使用数据表、高资源浪费率任务、低频使用字段的问题,在此基础上,针对不同的场景通过不同的手段进行优化。
「"数仓建设成本分析"看板总览」

技术方案

低频使用数据表优化方案
定位低频使用数据表
火山引擎Dataleap提供了Hive表的资源治理功能,包括Hive表的存储与访问次数等基本信息查询,用户可以根据该功能直接定位低频使用数据表并进行优化。
在这里插入图片描述
但是以上的优化存在以下缺陷:

  1. 使用Hive表的直接查询次数无法准确衡量用户对于数据的实际使用次数:为了保障查询速度,数据一般会由Hive表导入到ClickHouse等查询速度较快的介质中,而不会直
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值