数据仓库内容分享(四):滴滴大数据成本治理实践

本文详细介绍了滴滴公司的大数据成本治理框架,涉及数据体系、资产管理平台、Hadoop和ES的成本治理实践,强调了元数据、定价策略和用量管控在成本治理中的关键作用,以及通过激励机制提高治理积极性的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

01 滴滴大数据成本治理总体框架

1. 滴滴数据体系

2. 滴滴大数据资产管理平台

3. 滴滴大数据成本治理总体框架

02 Hadoop 成本治理实践

03 ES 成本治理实践

04 一些心得


01 滴滴大数据成本治理总体框架

1. 滴滴数据体系

在介绍滴滴成本治理之前,首先来简单介绍一下滴滴的数据体系。

最底层是以数据引擎为基础的数据存储,分为离线计算、实时计算、OLAP、no SQL、日志检索和数据通道六个部分。

在数据计算层,滴滴自研了一站式数据开发平台——“数据梦工厂”,主要包含离线开发、实时开发、任务调度、同步中心等一系列开发组件。数仓的同学和数据分析同学利用数据梦工厂进行数据的清洗与加工,构建其各自业务线的数据仓库。

在数据服务层,滴滴自研了一站式数据应用消费平台——“数易”,用来满足各类看数、取数、用数的场景。

最上层,数据科学的同学利用已加工好的数据进行决策支持、业务分析和数据挖掘等算法类场景的工作。

管理整套的数据体系,是通过以“元数据”为中心建设的两个产品,“数据地图”和“资产管理平台”。

治理工作,围绕五个核心方向展开,分别是成本、安全、质量、模型和价值。去年整个团队的工作重心,主要围绕数据安全方面。今年的重心则是成本治理。接下来,对成本治理方面的工作实践进行介绍。

图片

2. 滴滴大数据资产管理平台

滴滴大数据资产管理平台主要以六个分数来衡量使用数据的“好”与“坏”,分别为计算健康分、存储健康分、安全健康分、质量健康分、模型健康分和价值健康分。根据这六个维度分数的几何平均,算出一个总分 DataRank 分,来衡量总体使用数据“好”与“坏”的程度。成本治理主要是提升计算健康分和存储健康分。

图片

使用大数据资产管理平台进行成本管理,主要是对引擎(Hadoop、ES、Flink、Click House、Kafka、Hbase),和以“数据梦工厂”和“数易“为核心的两个数据中台产品,提供成本计费、账单分析和成本治理相关能力。

图片

3. 滴滴大数据成本治理总体框架

滴滴的“资产管理平台”于 2019 年初上线,当时只提供了 Hadoop 计算和存储的两种治理能力。在上线之前,整个集团的 Hadoop 存储量,以一条缓慢上涨的曲线,逐渐增长。平台上线之后,这条曲线逐渐拉平,说明通过治理的动作,抵消了业务增长带来的用量上涨。这个阶段称为治理 1.0 阶段。随着平台的发展,我们遇到两个问题,第一个问题是越来越难找出相对容易的治理项;第二个问题是治理工作的成果和价值,很难被说清楚。所以常被业务质疑,也影响了同学们治理的积极性。所以我们在 2022 年投入精力做定价,再做成本看清,再进行成本治理能力的建设,这就是成本治理 2.0 阶段。

图片

一个产品的硬件成本主要来自于三大方面:服务器、网络和该产品所使用的中间件资源(比如 MySQL、MQ 等)。此外,还有维护该产品,所消耗的人力维护成本,这四大块构成了产品的总成本。有了产品的总成本,要看这个产品今年需要达到的利润目标,是达到收支平衡即可,还是要有要留有一定的利润空间。将成本乘以(1+ 利润率),就可以预估出产品的预计总收入。随后要对产品收入进行拆分,确定通过哪些定价项来收费。拆分定价项的难点是,需要预估该产品今年的总用量。预估过大会造成成本损失,预估过小则会造成利润损失。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

之乎者也·

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值