久其BI数据质量管控解决方案

1 概述
1.1 方案背景
随着企业信息化建设的全面展开,各种业务系统在企业的运营和管理等方面扮演着越来越重要的角色。系统中存储的大量数据已经成为企业继“人、财、物”后最具价值的企业资源。企业对数据的依赖程度也在加大,数据质量的好坏直接关系到信息的准确程度,也影响了企业的生存和竞争能力。因此,数据质量作为影响管理层决策正确性的基础元素,已经越来越多地为企业领导者所关注。
但在长期的系统维护和使用中,各系统中的数据因存储分散,时常导致共享困难,并且在各系统数据展现时也容易出现不一致的情况,“数”出多门。这些数据不仅严重影响了目前对企业经营质量分析、客户质量分析、客户群细分等工作的开展,而且对今后各业务的市场拓展产生潜在的影响。著名市场调查公司Gartner在调查中显示,导致如商业智能(BI)和客户关系管理系统(CRM)这些大型的、高成本的管理信息系统方案失败的主要原因就在于企业是根据不准确或者不完整的数据进行决策。
因此在企业整个组织以及服务商、供应商内部,应建立科学有效的数据质量管理系统,对组织的数据质量实施全程、全域和全员的管理。将数据质量管理以制度化、规范化的方式落实到数据生成、传递和使用的各个过程、方面和人员之中,将会成为下一阶段企业信息系统建设中的一项重要工作。
1.2 客户面临的挑战及问题
在企业的信息化运行过程中,有些数据质量问题是不可避免的,这主要是由如下原因引起的:
 数据源问题
(1) 由于多个生产系统相对独立、缺乏统一的规划,必然导致数据的不一致性
(2) 由于业务系统建设时往往缺乏数据质量意味,因此在数据源本身存在大量的脏数据和噪声数据
(3) 数据存在人工操作的情况,导致数据间的不一致性
(4) 不同数据源由不同的部门管理,各部门对数据的关注角度不同也会导致数据粒度、名称、表达方式上的多样性
 数据抽取时间点问题
(1) 由于生产系统的数据是随生产而变化的,在不同的时间点进行数据抽取的数据是不一致的
 业务规则问题
(1) 生产系统的不同版本间对数据的处理规则不同,导致数据的不一致
(2) 各分公司市场政策的差异也会导致数据缺乏参照性
(3) 同一产品、业务在不同生产系统的业务处理规则不同,导致数据的不匹配
(4) 各系统的编码规则差异很大,导致数据难以核对
 统计口径问题
(1) 各系统之间的指标体系、编码规则及分类口径不一致

典型的,系统的数据质量一般包含如下情况:

  • 存在空值
  •  错误的值
  •  重复记录
  •  数据格式不正确
  •  数据粒度不一致
  •  错误的计算规则
  •  数据间缺乏参照完整性
  •  不同的统计口径
  •  命名规则不同

2 方案介绍
2.1 方案设计目标
 实现数据的自动化加载
 实现一套完善的数据稽核规则
 生成完整的数据质量报告
 实现对数据提供方的绩效考核
2.2 方案总体框架
企业数据质量管控总体框架图如下图所示:

                                   
 

在数据抽取的过程中主要包括三方面的数据质量检查:
 数据完整性校验
(1) 将外部系统(业务系统)的数据加载到数据仓库的临时存储区时进行的校验
(2) 主要校验文件本身的正确和数据项的完整性,保证接口数据被完整地加载到数据仓库当中,但不校验数据的正确性
 数据准确性校验
(1) 在数据仓库的清洗过程中进行的校验
(2) 主要校验数据项的一致性和正确性
 数据合理性校验
(1) 在数据仓库的清洗过程中进行的校验
(2) 主要是结合业务规则,从业务合理性的角度对数据进行校验

在数据校验过程中需要生成数据质量报告,并由相关的负责人对错误数据进行修正并重新生成接口数据。
2.3 主要功能说明
 元数据管理
(1) 建立统一的主数据模型
(2) 定义标准的、公司级的指标体系和业务规则
(3) 定义源系统(数据)与标准主数据模型的映射关系
 自动化数据加载
通过配置自动化调度方案,支持文件、时间、状态和依赖等多种触发机制,支持多线程容器中自动均衡处理,可实现对成千上万的数据处理任务有条不紊的进行并发调度和自动执行,真正实现数据处理过程的“无人值守”。
  数据稽核
(1) 完整性稽核
 文件检查:对接口文件本身的正确性进行检查,包括文件大小、文件日期等指标;
 总量检查:对相邻两个环节,对数据的总量进行验证,总量指标包括总记录数、所有度量指标的总和等;
 分量检查:对相邻两个环节,在总量正确的前提下,对数据分布的情况进行稽核,在这个过程中,需要对每个维度进行汇总对比,可以只对部分度量进行分量检查。
(2) 准确性稽核
 常规检查:对数据本身的正确性、一致性进行检查,包括空值错误、格式非法、数据类型错误、值域不符、主键非法、长度非法、重复记录、外键错误等;
 业务检查:结合业务规则对数据的一致性进行检查,如收入-成本=利润等。
(3) 合理性稽核
 在完整性稽核和准确性稽核正确的基础上,基于对业务的预测对数据的合理性进行检查,如收入的增长率(不是基础指标)在±30%之间、离散度(标准差/均方差)等。
 数据质量报告
根据数据稽核的结果生成相应的数据质量报告


3 方案应用场景
本方案可以应用于如下应用场景:

  • 数据中心系统建设
  •  辅助决策支持系统建设
  • 业务系统数据质量考核

4 方案应用价值

传统的数据质量管理主要强调数据的准确性,即数据本身的完整性、准确性和一致性等,而本方案的数据质量管理除了数据本身的准确性之外,还强调:
 数据的时效性
强调数据应及时推送给客户,即使准确的数据如果不能让客户及时获取,也对决策没有价值。
 数据的有效性
推送给客户的数据应该是经过挖掘和加工的,是对客户有价值的信息。

只有满足了数据的准确性、时效性和有效性,这些数据才真正能够为企业的管理员所利用,并依据这些数据做出正确的决策。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值