大数据改进企业质量_企业数据中台的秘密:数据质量管理与分析

企业启动中台战略的目的是为了提升效率和解决业务匹配度问题,最终达到降本增效,让一切业务数据化,一切数据业务化。数据业务化的关键要素之一就是先确保数据质量,才能有效的发挥出数据的价值。

企业有多个业务系统,会产生很多的数据。但是,在大数据中的大对应的就是少,因为越是真实的业务数据,数据量就越大,但是可用的信息比例就越少,实际得到的更多是噪音数据。如果在做数据分析与挖掘时,拟合了噪音数据,那就被数据绑架了。

数据本身是不会撒谎,而是收集样本的维度、数据量会撒谎,毕竟收集数据的质量良莠不齐。然而,数据质量又常常反映的是数据的“适用性”,即数据满足使用时需要的合适程度。

那么,需要如何进行有效的数据质量管理与分析才能满足数据的适用性呢?本篇,按顺序介绍如下:

  • 数据质量问题盘点与分析

  • 数据质量管理方法与步骤

  • 数据质量管理的注意事项

01 数据质量问题盘点与分析

维基百科的定义,数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。

企业需要通过有效手段对数据进行管理与控制,改善数据质量问题,从而提升数据质量,发挥数据的价值。数据能发挥价值的大小依赖于其数据的质量的高低,高质量的数据是企业一切业务能力的基础。

0056ea47fcf1216c87bd6b2a7f8b977e.png

【数据质量四大问题域图】

数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。

c33ffc507dc167d88bfe55b7f99c65c5.png

【数据质量问题分析图】

从上述数据质量问题的影响因素分析可以发现,数据质量管理是一个集方法论、管理、技术和业务为一体的解决方案,不是一时的数据治理方法,是一个不断循环的管理过程。

一方面反映出企业数据很难一次性就达到使用的标准规范,毕竟数据治理是一个相对漫长的过程;另一方面也反映出数据质量的重要性以及数据质量工作的零散性和琐碎性。

从信息、技术和流程三个方面的数据质量问题相对来说比较容易控制,可以通过引入数据质量管理体系和数据质量管理系统;对于管理类的数据质量问题,更多往往在于企业人对于数据的理解、支持和认知程度有很大的关系,通常可以从数据规划、数据治理的组织与职责、数据规范的制度和流程等方面去做工程规划。

所以,想要真正从根源上改进数据质量问题,需要从组织管理、业务、技术三个方面同时入手。

02 数据质量管理方法与步骤

在前一篇【数据资源规划与建设】文章中,笔者已经提到过数据资源规划的重要性以及具体的工程方法与步骤。企业做数据资源规划前要对数据进行详细的梳理,只有梳理出企业的数据现状,统计出数据来源,确定数据资源分类,做好数据分析评估,才能找到据资源规划的解决方法。然而,企业做数据资源规划的前提是要保证数据质量。

从方法论的角度来看,针对数据的改善和管理,主要包括确立组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审核机制、实施改进、评估改善效果等环节;

从业务的角度来看,针对数据的改善和管理,主要包括业务需求与变更多级评审、规范业务端数据输入规范、稽核业务数据质量等内容;

从技术的角度来看,针对数据的改善和管理,主要包括数据分析、数据评估、数据清洗、数据监控、错误预警等内容。

d3c34d6b71d70624ee5ca3a0cf2957fb.png

【数据质量管理的三要素】

1、数据梳理数据梳理是明确企业数据现状,知道整体数据质量情况,将具有共同的特征数据提取出来,按照主题域的方式进行划分,方便后续的数据管理。先明确企业数据的种类,根据数据的不同分类,选择不同的提升数据质量的方法。

梳理企业目前的数据情况,知道企业现阶段有什么数据,数据来自什么业务系统,数据用在哪里,数据如何存储,数据安全和数据隐私是什么情况;业务可以采集到什么数据;还缺什么数据以及目前企业数据建设的情况,做好数据评估与分析报告,为数据质量提升提供一个全方位的数据现状参考。

业内通常采用以下方式,对数据质量进行评估:

56a0160eeb1141a5f0a4643ce8ecd690.png

【数据质量标准图】

82b9ee7fc0dcf8480c69139c456d82c1.png

【数据质量评估图】

从业务角度出发,梳理出目前企业数据之间的流向关系、数据的分类情况和数据分类之间的关系,明确什么数据是基础数据,什么数据是由基础数据衍生出来的

只有先梳理清楚目前企业数据情况,才能认清企业数据的情况,从中找到提升数据质量的关键突破点。

2、数据规范从数据模型和数据标准两个方面定义好数据规范。

数据模型是数据特征的抽象,是获取和明确企业数据需求的方法,也是数据需求分析与建模工作的基础,通过对展现客观事物的信息进行抽象、综合、分类,组织为具有某种结构的数据,对这些数据结构、其相互之间逻辑关系、数据操作方式及约束的描述。在实际的建模过程中,数据模型所描述的内容包括数据结构、数据操作、数据约束三个部分。

数据标准是对数据模型的另一种延伸,是数据资产管理的核心基础,也是对企业数据资产化进行准确重定义的过程。数据标准可以促进企业数据模型落地,对企业业务系统中关键数据进行标准化起到了关键性作用。但是,真正数据标准并不是规范文档、流程文档、制度文档等,而是通过一套由管理规范、管控流程与技术工具共同组成的体系逐步实现数据信息化标准的过程。

在数据模型的落地和推动过程当中,往往会遇到由于各组织人员认知不同、看待问题的角度不同以及其他内外部原因等限制,导致数据在集成与互通的时候会遇到数据不一致的问题。

所以,在做业务系统的数据模型设计之前,企业要设计一套相对标准的数据规范。通过数据标准规范来反向推动业务进行数据收集,解决数据不一致的问题。常用的策略有以下几种:

在需求规划阶段,梳理企业现有的数据模型是否合理,有则改之无则加勉,然后根据现有的模型来设计整体系统的模型,整个过程始终遵循数据标准的规范要求;

在数据获取阶段,重点关注数据的安全性与隐私性问题、数据的及时性问题,数据传输等问题;

在数据存储和共享阶段,重点关注数据的整合问题,数据的一致性问题,数据的完整性等问题。

3、数据生命周期数据的生命周期需从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个步骤,是一个不断循环迭代的过程。

企业需要对数据流动的整个生命周期的每个环节进行监控把关,要知道在每个环节数据发生了什么变化,才能采取相应的手段来处理质量问题。流动数据的价值远远大于静态数据的价值,只有以业务为中心,才能真正让数据用起来。

72c19323dab0792b719c40b06280ccce.png

【数据生命周期图】

主要可以从数据标准的规划设计、数据建模、数据质量监控、数据问题诊断、数据清洗、优化完善迭代等方面。比如,当企业元数据、主数据、数据格式、数据校验方式都不一致的情况之下,会导致业务部门对数据进行分析与挖掘的过程中会产生很大的困惑,业务部门需要经过大量的沟通和调查,才能真正理解数据的含义和本质。可以使用数据生命周期的分析思路,在管理和流程上明确数据维护的责任主体,从源头开始就对数据质量进行监控,对关键的元数据、主数据进行统一,将能有效的解决数据质量问题。

◆ 数据需求规划与设计。从需求开始,将数据质量的重要性结合到日常的工作环境中,让数据相关使用人员统一认知,明确知道数据质量的重要性,从需求源头系统开始保证数据质量。比如,涉及到数据需求、研发人员数据库表的设计、数据创建、数据录入、数据存储、数据处理等方面的设计

83619678e2b207219c607b112f0b5d9d.png

【数据质量控制方式图】

1、事前通过定义数据的监控规则预防控制。比如,定义数据规范化、数据标准化、做好元数据管理,确定引起数据质量问题的相关因素,做好解决数据质量问题的优先级,并形成案例库;

2、事中通过监控和控制数据生成过程预防控制。建立数据质量的流程化控制体系,定时对数据的新建、变更、采集、加工、装载、应用等各个环节进行控制和检查;通过业务人工规则和机器学习的审核方式对数据进行管理,从数据的源头开始控制好数据质量,对于不符合质量规则的数据进行及时改进;

3、事后定期开展数据质量的分析、检查、清洗工作,对数据进行打分和问题追踪回溯。

总结一下

数据质量管理是数据治理很重要的一个部分,企业数据治理的所有工作都是围绕着提升数据质量目标而展开的。但是,数据治理是王婆娘的裹脚布,也是政治斗争的绞肉机。治理与管理是两个矛盾的对立面,数据的质量归根结底主要是受到人的影响,仅仅试图依赖技术手段解决数据质量问题的效果往往甚微。

所以,想要做好数据质量管理,希望可以做到以下几点:

  1. 统一企业数据相关人员的认知,从数据录入、数据分析处理入手,把握好数据来源入口;

  2. 确定好每个阶段的组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审核机制、实施改进、评估改善效果,从数据发现、分发、治理、监督、考核形成流程化的闭环管理;

  3. 从管理、业务、技术三方面进行规范,严格执行数据标准规范,保证数据输入端的正确性,制度好数据事前预防控制、事中过程控制、事后监督控制的规则与机制。

CIO之家 www.ciozj.com 微信公众号:imciow

在互联网发展浪潮中,数据对于企业的价值是非常大的,怎么管理好数据,以及快速挖掘数据价值,共享数据价值,急需一套解决方案,在数据开发中,核心数据模型的变化是相对缓慢的,同时,对数据进行维护的工作量也非常大;但业务创新的速度、对数据提出的需求的变化,是非常快速的。数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。数据中台解决的问题,包括:效率问题、协作问题、能力问题,数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。本课程基于真实企业数据中台建设架构进行讲解,带大家构建数据中台,通过学习完本课程可以节省你摸索的时间,节省企业成本,提高企业开发效率。课程包含几大模块:数据源管理、数据接入管理、数据质量管理数据质量报告、数据安全管理、数据中台实战应用等,对于数据中台涉及到的业务以及技术进行详尽的讲解。本课程包含的技术:开发工具为:IDEA、WebStormFlink1.9.0ClickHouseHadoop2.6.0Hbase1.0.0Kafka2.1.0Hive1.0.0HDFS、MapReduceZookeeper、AtlasSpringBoot2.0.8.RELEASESpring MybatisMySQLVue.js、NodejsElemntUI课程亮点:1.与企业接轨、真实工业界产品2.全方位管理、治理数据3.大数据以及业务系统数据企业接轨4.支撑业务系统数据使用以及共享5.集成IDE可视化查询6.集成元数据管理和数据血缘追溯7.ClickHouse高性能列式存储数据库8.数据中台项目应用实战9.Flink+ClickHouse技术架构10.微服务架构技术SpringBoot技术架构11.后端+大数据技术栈+前端可视化12.提供全方位的技术落地指导支持13.课程凝聚讲师多年实战经验,经验直接复制14.掌握全部内容能进行大数据用户平台的设计和实操 企业一线架构师讲授,代码在老师的指导下企业可以复用,提供企业解决方案。  版权归作者所有,盗版将进行法律维权。  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值