数据资产入表-数据治理-其他通用规则

        前情提要:数据价值管理是指通过一系列管理策略和技术手段,帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程,即数据治理和价值变现。

上一讲介绍了数据一致性标准设计的基本逻辑和思路。

本章重点讲解数据治理过程中其他的通用标准设计

        通用规则是指在数据治理过程中,经过数据管理和数据规则沉淀形成的可以制定标准开发流程的规则,此类规则的输出对于数仓生产流程提供了更多的便捷性,但也存在一定的风险。

        优势:1.提高了业务人员管理治理规则的便捷性;2.降低了数据开发的重复开发成本;3.提高了数据一致性标准,基于统一的管理和调度,为数据一致性提供了保障;

        劣势:由于通用规则的覆盖面广,有的规则可能是覆盖全局的,所以操作过程中若存在误差,则会引起数仓开发事故,因此对于业务人员和数据开发人员的能力要求较高;

        常用的通用规则包含:通用提取规则、批量空值补充标准、内容映射规则、通用内容组合规则、通用计算规则 五类

通用提取规则

        ①定义

        通用提取规则适用的场景是被提取文本与标签结果存在诸多可能性,而业务人员无法在短时间内穷尽,其持续的过程较长,但开发流程较为单一,则借助搭建通用提取规则进行处理。常见的数据提取规则包含关键词匹配、正则表达式、借助NLP(自然语言处理)提取。本篇的通用提取规则只针对关键词匹配方法。

        ②此类规则的设计路径

      ③配置表实例

批量空值补充标准

①定义

        空值补充标准通常指的是在数据处理过程中,对于缺失或空值数据的处理方法和原则。在批量操作中,需要区分被补充字段的存储类型,即区分文本类、数值类、时间类、布尔值等。按照区分结果制定批量控制补充标准:

        文本类:文本字段一般按照固定值进行填充,即当符合某些条件下,按照固定值填充写入被填充字段内;

        数值类:可根据数值的计算公式或者固定值写入,根据具体的业务制定填充逻辑;

        时间类:可根据时间函数制定写入策略;

        布尔值:布尔值的判断一般会设置一个默认值,后期基于判断条件更改默认值的方式进行修改;

②此类规则的设计路径

③配置实例

内容映射规则

       ①定义

       内容映射规则指的基于场景和用户需求,将内容根据规则进行批量映射的过程。以国民经济行业分类标准和战略性新兴产业分类标准为例,战略性新兴产业分类是按照国民经济行业分类标准进行二次划分的,那么此类关系就可以基于通用映射规则处理。

②此类规则的设计路径

③配置实例

通用内容组合规则

①定义

        是指在数仓轻度汇总层或者APP层,对于数仓明细层的数据基于分析场景和监测场景的需求,进行二次组合的过程中的通用规则。

②此类规则的设计路径

③配置实例

       通用计算规则是指在数据计算分析过程中,一些通用的基础的,参数可配置的逻辑进行封装,纳入通用计算规则中,后续在指标计算规则中进行详细讲解;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值