前情提要:数据价值管理是指通过一系列管理策略和技术手段,帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程,即数据治理和价值变现。上一讲介绍了数据归集标准设计的基本逻辑和思路。
从本期开始讲解数据处理标准设计
数据处理标准是指在数据归集完成后,对数据进行标准化和信息挖掘的过程中的数据处理标准,用于指导数据生产人员的生产过程。常见的数据处理标准包含数据清洗标准、数据切分标准、多源数据融合标准、关联关系建设标准、标签建设标准、数据一致性处理标准、指标计算标准、其他通用标准这几大类等一系列数据处理标准。
本章重点讲解数据清洗标准设计
数据清洗是将“脏数据”转换为“高质量可用数据”的过程,通常在进入数仓明细层(DWD)之前或者进入数仓明细层(DWD)的过程中执行,对于数据清洗的深度需要按照技术要求和业务需求两个维度来考量。
技术要求:针对数仓明细层业务主键(序列自增的主键规则除外)的清洗规则必须要求一步到位。在数仓业务流转过程中,One_id的形成通常是从数仓明细层(DWD)开始,直至数据流转至数据应用层(App)层均会通过One_id来构建数据血缘。如果数仓明细层的业务主键存在错误的、不规范的数据,会导致数据重复或者数据丢失,导致数据质量下降的情况。
在实操过程中的业务主键清洗输出步骤:
step1:对即将设定为业务主键的字段,在业务层面需要研究其定义和说明。比如公司基础信息在设定业务主键时,需要研究《中华人民共和国公司登记管理条例》,了解工商信息管理流程。step2:在数据贴源层(stg)需要进行全面探查,针对非规范内容进行排查,纳入到数据清洗规则中;
业务要求:业务要求则需要在数据分级分类的基础上进行二次划分,按照字段的分级分类结果制定不同深度的清洗规则。按照业务定义和组织标准,可参考标准《数据安全技术 数据分类分级规则》(标准号:GB/T 43697-2024),将数据分为核心数据、重要数据、一般数据。
核心数据:在基础清洗规则的基础上,制定深度清洗规则,将数据清洗为高度贴合业务场景的数据,按照不同的业务需求,制定分版本分业务线的清洗规则。且在清洗规则的基础上,制定人工核验机制,保证核心数据的准确性。
重要数据:可以基础清洗规则的基础上,制定数据业务清洗规则。
一般数据:仅按照通用清洗规则处理。
通用清洗规则样例:
a.统一为英文括号
b.只保留英文字母与英文字母之间的空格,其余所有空格均去除
c.字段长度小于等于3的置为null
清洗规则的元数据管理样板