数据分析 - 基础原理 之 第三章:数据质量管理 - 第二节:数据生命周期

前言

数据生命周期 网上有许多版本,各行各业的、各类应用场景的;下面是个人认为比较好的两篇介绍,望匆喷,若有推荐请留言,不胜感激。

1.数据全生命周期管理模型

请参考原创:https://www.zhihu.com/question/393978073

特点是包含10多种数据生命周期模型,涉及多个行业或研究主题方向,以下给出其中一版 — 一般科学模型。

一般科学模型

通用科学模型由科学机构提供,用于管理科学数字数据。此模型可用于管理用于存档或处理数据的数据收集方法。

通用科学数据模型将计划、收集、集成和转换、发布、发现和通知以及存档或丢弃作为生命周期的六个阶段。这个模型,如图7所示,可以用数据管理计划使用的特定技术来预测下一组数据采集。

研究结论:此模型不是整个数据生命周期的综合模型,因为它是专门为数据存档和处理而设计的。该模型不关心数据分析、数据安全和数据质量。
 

2.数据全周期管理

请参考原创:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA

数据的生命周期从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个阶段并不断循环的过程。企业的数据质量管理应贯穿数据生命周期的全过程,覆盖数据标准的规划设计、数据的建模、数据质量的监控、数据问题诊断、数据清洗、优化完善等方面。

(1)数据规划。从企业战略的角度不断完善企业数据模型的规划,把数据质量管理融入到企业战略中,建立数据治理体系,并融入企业文化中。

(2)数据设计。推动数据标准化制定和贯彻执行,根据数据标准化要求统一建模管理,统一数据分类、数据编码、数据存储结构,为数据的集成、交换、共享、应用奠定基础。

(3)数据创建。利用数据模型保证数据结构完整、一致,执行数据标准、规范数据维护过程,加入数据质量检查,从源头系统保证数据的正确性、完整性、唯一性。

(4)数据使用。利用元数据监控数据使用;利用数据标准保证数据正确;利用数据质量检查加工正确。元数据提供各系统统一的数据模型进行使用,监控数据的来源去向,提供全息的数据地图支持;企业从技术、管理、业务三个方面进行规范,严格执行数据标准,保证数据输入端的正确性;数据质量提供了事前预防、事中预警、事后补救的三个方面措施,形成完整的数据治理体系。

3.个人版

由以上两篇文章可见,数据生命周期包含的内容点繁多,以下 数据生命周期内容 是个人根据自身行业及经历作出的总结,由于个人能力及所处行业的局限性,内容会有所偏差,也会持续优化。

(1)数据规划设计(前期):数据源范围(基于业务考虑)、数据质量标准(技术+业务)、数据存储架构设计(工具平台、存储划分、表及字表设计...)、应用场景考虑等

(2)数据存储(中期):数据收集、数据清洗、数据入库等ETL过程,还包括数据质量监控、数据库的性能监控、日志管理、用户管理、权限配置等

(3)数据应用(后期):即时查询、常规报表、OLAP、数据分析、数据挖掘、BI等

(4)数据归档(退役):个人认为数据没有消亡一说,更像退役,但个人更喜欢称为数据归档。归档释义:把文件、材料分类放进档案保存起来。  

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值