前言
数据生命周期 网上有许多版本,各行各业的、各类应用场景的;下面是个人认为比较好的两篇介绍,望匆喷,若有推荐请留言,不胜感激。
1.数据全生命周期管理模型
请参考原创:https://www.zhihu.com/question/393978073
特点是包含10多种数据生命周期模型,涉及多个行业或研究主题方向,以下给出其中一版 — 一般科学模型。
一般科学模型
通用科学模型由科学机构提供,用于管理科学数字数据。此模型可用于管理用于存档或处理数据的数据收集方法。
通用科学数据模型将计划、收集、集成和转换、发布、发现和通知以及存档或丢弃作为生命周期的六个阶段。这个模型,如图7所示,可以用数据管理计划使用的特定技术来预测下一组数据采集。
研究结论:此模型不是整个数据生命周期的综合模型,因为它是专门为数据存档和处理而设计的。该模型不关心数据分析、数据安全和数据质量。
2.数据全周期管理
请参考原创:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA
数据的生命周期从数据规划开始,中间是一个包括设计、创建、处理、部署、应用、监控、存档、销毁这几个阶段并不断循环的过程。企业的数据质量管理应贯穿数据生命周期的全过程,覆盖数据标准的规划设计、数据的建模、数据质量的监控、数据问题诊断、数据清洗、优化完善等方面。
(1)数据规划。从企业战略的角度不断完善企业数据模型的规划,把数据质量管理融入到企业战略中,建立数据治理体系,并融入企业文化中。
(2)数据设计。推动数据标准化制定和贯彻执行,根据数据标准化要求统一建模管理,统一数据分类、数据编码、数据存储结构,为数据的集成、交换、共享、应用奠定基础。
(3)数据创建。利用数据模型保证数据结构完整、一致,执行数据标准、规范数据维护过程,加入数据质量检查,从源头系统保证数据的正确性、完整性、唯一性。
(4)数据使用。利用元数据监控数据使用;利用数据标准保证数据正确;利用数据质量检查加工正确。元数据提供各系统统一的数据模型进行使用,监控数据的来源去向,提供全息的数据地图支持;企业从技术、管理、业务三个方面进行规范,严格执行数据标准,保证数据输入端的正确性;数据质量提供了事前预防、事中预警、事后补救的三个方面措施,形成完整的数据治理体系。
3.个人版
由以上两篇文章可见,数据生命周期包含的内容点繁多,以下 数据生命周期内容 是个人根据自身行业及经历作出的总结,由于个人能力及所处行业的局限性,内容会有所偏差,也会持续优化。
(1)数据规划设计(前期):数据源范围(基于业务考虑)、数据质量标准(技术+业务)、数据存储架构设计(工具平台、存储划分、表及字表设计...)、应用场景考虑等
(2)数据存储(中期):数据收集、数据清洗、数据入库等ETL过程,还包括数据质量监控、数据库的性能监控、日志管理、用户管理、权限配置等
(3)数据应用(后期):即时查询、常规报表、OLAP、数据分析、数据挖掘、BI等
(4)数据归档(退役):个人认为数据没有消亡一说,更像退役,但个人更喜欢称为数据归档。归档释义:把文件、材料分类放进档案保存起来。