数据治理实战总结--数仓面试必备一

数据模型治理

大部分行业的数据都具备如下特征:

l 数据生命周期比较长

核心业务过程生命周期短则 1 天,长则 3-5 天,异常过程可能会更长。财务类周期结算长,涉及政策财经类数据计算回刷时间 1~3 个月;

l 业务流程复杂

核心业务过程从业务流程起始点到业务流程终点,流程较为复杂;

l 对象多数据大

数据由不同业务对象等多角色产生,且非常依赖他们操作的规范性;

l 数据精细化运营

当前各大行业竞争都非常激烈,在此背景下更需要精细化运营,因此对数据依赖非常强。公司通过数据化运营进行成本管控,运单时效管控,服务质量管控,已成为公司日常运营常态,因此对数据准确性,时效性要求很高。

同时,随着业务持续发展,项目也在快速迭代。数据建设不规范等方面的原因导致了复用性不高、时效不稳定等,自然而然也会引起资源危机等问题。

为此可以制定了一整套的方案,主要包括三方面

第一,制定规范。制定诸如开发规范、分层使用规范,并严格要求各类数据开发和使用团队遵守;

第二,过程管控。以需求为驱动,将设计、开发、上线等数据建设各个阶段进行过程管控;

第三,模型分级。根据应用的重要程度来反推、梳理哪些是重要的模型和应用,将重要性高的模型和应用纳入重点治理范围,重点关注他们的复用性、实效性。
3.1.1 规范治理

规范是数仓建设的保障。为了避免出现指标重复建设和数据质量差的情况,统一按照最详细、可落地的方法进行规范建设。

3.1.1.1词根规范

词根是维度和指标管理的基础,划分为普通词根与专有词根,提高词根的易用性和关联性。

普通词根:描述事物的最小单元体,如:交易-trade。

专有词根:具备约定成俗或行业专属的描述体,如:美元-USD。

3.1.1.2表命名规范

通用规范

l 表名、字段名采用一个下划线分隔词根(示例:clienttype->client_type)。

l 每部分使用小写英文单词,属于通用字段的必须满足通用字段信息的定义。

l 表名、字段名需以字母为开头。

l 表名、字段名最长不超过64个英文字符。

l 优先使用词根中已有关键字(数仓标准配置中的词根管理),定期Review新增命名的不合理性。

l 在表名自定义部分禁止采用非标准的缩写。

l 表命名规则:表名称 = 类型 + 业务主题 + 子主题 + 表含义 + 存储格式 + 更新频率 +结尾,如下图所示:

统一的表命名规范
3.1.1.3指标命名规范

结合指标的特性以及词根管理规范,将指标进行结构化处理。

l 基础指标词根,即所有指标必须包含以下基础词根:

l 业务修饰词,用于描述业务场景的词汇,例如trade-交易。

l 日期修饰词,用于修饰业务发生的时间区间。
l 基础指标,单一的业务修饰词+基础指标词根构建基础指标 ,例如:交易金额-trade_amt。

l 派生指标,多修饰词+基础指标词根构建派生指标。派生指标继承基础指标的特性,例如:安装门店数量-install_poi_cnt。

l 普通指标命名规范,与字段命名规范一致,由词汇转换即可以。

  • 13
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数字天下

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值