前情提要:数据价值管理是指通过一系列管理策略和技术手段,帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程,即数据治理和价值变现。
上一讲介绍了数据一致性标准设计的基本逻辑和思路。
本章重点讲解数据治理过程中其他的通用标准设计
通用规则是指在数据治理过程中,经过数据管理和数据规则沉淀形成的可以制定标准开发流程的规则,此类规则的输出对于数仓生产流程提供了更多的便捷性,但也存在一定的风险。
优势:1.提高了业务人员管理治理规则的便捷性;2.降低了数据开发的重复开发成本;3.提高了数据一致性标准,基于统一的管理和调度,为数据一致性提供了保障;
劣势:由于通用规则的覆盖面广,有的规则可能是覆盖全局的,所以操作过程中若存在误差,则会引起数仓开发事故,因此对于业务人员和数据开发人员的能力要求较高;
常用的通用规则包含:通用提取规则、批量空值补充标准、内容映射规则、通用内容组合规则、通用计算规则 五类
通用提取规则
①定义
通用提取规则适用的场景是被提取文本与标签结果存在诸多可能性,而业务人员无法在短时间内穷尽,其持续的过程较长,但开发流程较为单一,则借助搭建通用提取规则进行处理。常见的数据提取规则包含关键词匹配、正则表达式、借助NLP(自然语言处理)提取。本篇的通用提取规则只针对关键词匹配方法。
②此类规则的设计路径
③配置表实例
批量空值补充标准
①定义
空值补充标准通常指的是在数据处理过程中,对于缺失或空值数据的处理方法和原则。在批量操作中,需要区分被补充字段的存储类型,即区分文本类、数值类、时间类、布尔值等。按照区分结果制定批量控制补充标准:
文本类:文本字段一般按照固定值进行填充,即当符合某些条件下,按照固定值填充写入被填充字段内;
数值类:可根据数值的计算公式或者固定值写入,根据具体的业务制定填充逻辑;
时间类:可根据时间函数制定写入策略;
布尔值:布尔值的判断一般会设置一个默认值,后期基于判断条件更改默认值的方式进行修改;
②此类规则的设计路径
③配置实例
内容映射规则
①定义
内容映射规则指的基于场景和用户需求,将内容根据规则进行批量映射的过程。以国民经济行业分类标准和战略性新兴产业分类标准为例,战略性新兴产业分类是按照国民经济行业分类标准进行二次划分的,那么此类关系就可以基于通用映射规则处理。
②此类规则的设计路径
③配置实例
通用内容组合规则
①定义
是指在数仓轻度汇总层或者APP层,对于数仓明细层的数据基于分析场景和监测场景的需求,进行二次组合的过程中的通用规则。
②此类规则的设计路径
③配置实例
通用计算规则是指在数据计算分析过程中,一些通用的基础的,参数可配置的逻辑进行封装,纳入通用计算规则中,后续在指标计算规则中进行详细讲解;