背景
存储与计算资源是数仓建设的基础,也是数仓建设中的重要成本支出。而随着数仓建设规模逐渐扩大、时间跨度逐渐拉长,将不可避免的出现数据表、任务、字段的冗余。为了减轻资源负担,降低数仓维护成本,需要对数仓建设成本进行治理与优化。
技术路线
针对数仓建设成本治理的粒度从大到小可以分为:数据表、数据任务、数据表字段。从粗到细的治理优化思路如下:
- 当发现低频使用的数据表时,下线对应数据表的同时也删除对应数据任务;
- 当数据任务资源浪费严重,针对任务进行对应的代码与资源优化;
- 当发现一张表中个别字段使用使用频率很低,停止相关字段的计算与存储。
根据以上的优化思路,首先要解决如何定位低频使用数据表、高资源浪费率任务、低频使用字段的问题,在此基础上,针对不同的场景通过不同的手段进行优化。

技术方案
低频使用数据表优化方案
定位低频使用数据表
火山引擎Dataleap提供了Hive表的资源治理功能,包括Hive表的存储与访问次数等基本信息查询,用户可以根据该功能直接定位低频使用数据表并进行优化。

但是以上的优化存在以下缺陷:
- 使用Hive表的直接查询次数无法准确衡量用户对于数据的实际使用次数:为了保障查询速度,数据一般会由Hive表导入到ClickHouse等查询速度较快的介质中,而不会直

文章介绍了针对数仓建设中的成本治理策略,包括通过火山引擎Dataleap的Hive表成本分析看板定位低频使用数据表,优化资源浪费的任务,以及精细化管理低频使用的字段。通过建立血缘关系树和评估ROI,提出下线、缩减TTL、配置温存和停止解析存储等优化手段,以提升资源效率和降低成本。
最低0.47元/天 解锁文章
5316

被折叠的 条评论
为什么被折叠?



