前情提要:数据价值管理是指通过一系列管理策略和技术手段,帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程,即数据治理和价值变现。第二讲介绍了数据资产建设标准设计的基本逻辑和思路。
本期介绍数据归集标准设计
数据归集标准保证数据价值的第一道关卡,是对数据入库/湖前的标准,描述了组织对于数据归集动作的一系列制度标准说明。
标准类型(6大类):归集数据的对接标准、数据源的数据标准、数据探查维度标准、数据归集范围标准、模型设计和接入血缘标准、数据入库/湖的处理规则
归集数据的对接标准
归集数据的对接标准是指数据归集时的方式描述,包含库表对接、文件对接、接口服务对接、网页爬取对接、物联网系统数据对接。
库表对接是指通过对接数据来源方的数据库进行数据归集;对接标准中需描述数据库类型、jdbc地址、对接的表名、数据内容简述、归集方式(推送/抽取)、归集频率、数据字典六个维度。
文件对接是指通过线下文件进行数据归集;对接标准中需包含文件类型、文件名称、数据内容简述、推送频率四个维度。
接口服务对接是指通过系统服务接口调用的方式进行数据归集;对接标准中需包含服务接口调用形式、接口资源描述、接口功能描述、调用频率四个维度。
网页爬取对接是指主动通过爬虫技术访问互联网数据的方式进行数据归集;对接标准中需包含网站地址、网站名称、数据描述、获取频率四个维度。
物联网系统数据对接:是指归集传感器,识读器,读写器,摄像头,终端,GPS等智能模块和设备产生的数据;对接标准中需包含设备类型、模块、协议、数据描述、数据并发量和日增量评估等维度。
数据源的数据标准
数据源的数据标准是对数据源的权威性、合规性、数据质量的标准描述。
数据源的权威性
是指对于数据源提供的数据对真实世界的描述是否具备一定的公信力和信服度。此类标准依赖数据产品规划对于数据业务的了解和政策的研究。
数据源的合规性
是指数据源供给的数据是否具备合规性,这项标准对于组织后期的数据资产入表有较为明显的影响。
数据质量标准
数据质量标准需标识准确性、完整性、一致性、及时性、有效性5个维度的标准描述。
数据探查维度标准
数据源的探查维度需要按照对于上一步骤(数据源的数据标准)进行拆解,本文的数据源探查维度包含
数据准确性
探查数据记录的信息是否存在异常或者错误,比如字段值错误、缺失、空值等。
数据完整性
数据完整性可比较应有数据内容/数据字段和实际数据内容/数据字段的比例,应当尽量保证数据的完整性,即数据源能满足的数据内容/数据字段需要。
数据一致性
数据一致性是评估数据质量的一个关键点,主要是指数据采集与真实值之间的接近程度,当误差越低,说明数据采集与真实值之间的一致性越高。
数据及时性
需要探查数据更新的及时性,此及时性需要保证数据源数据采集处理的及时性,也需要探查关于数据源数据传输的及时性。
数据有效性
探查数据是否遵循预定的处理规则,是否符合其字段定义,比如数据的类型、格式、取值范围等。
数据归集范围标准
数据归集范围标准是描述数据归集数据集的范围。标准维度可按以下维度设计:
数据集范围(例如数据库、表单、文件范围)、字段范围、时间范围、地域范围、业务范围
模型设计和接入血缘标准
模型设计和接入血缘标准是定义数据从数据源到数据入到组织内部的转换过程中的标准,需要描述来源数据集、来源字段、来源数据存储颗粒度、写入数据库、写入表、写入字段。
数据入库/湖的处理规则
数据入库/湖的处理规则是在模型设计和接入血缘标准的基础上对于某些特殊字段的简单处理规则,例如时间格式转换,全角半角符号转换等。