前言
近期拜访了不少客户,发现不同的客户对数据治理的相关概念理解都不一样,甚至完全是错误的,有些厂商为了追求时髦和新颖,一味追求新的概念,甚至有些概念的完全是张冠李戴,给市场制造了居多混乱和困扰,给客户带来误导。这也是我写这篇文章缘由,希望该篇文章能正本清源,能给广大读者起到一定指导作用。
术语是对概念的特定描述,在不同的专业领域,人们对同一概念的理解各有侧重;在不同发展时期,人们对数据治理领域的同一概念的理解也会发生变化。术语的作用就是统一术语概念的语境,保证人们在给定语境能够使用专门的语言进行精确的交流。术语概念只使用一个最贴切的业务术语表述,避免使用多个近义词引起歧义。
一
3T差异((信息化(IT) 、工业运营技术(OT)、数字化转型(DT)
1、信息化(IT)Information Technology
包括了信息的数字化、数据化海量存储的条件、网络化可传递与共享等。企业通过ERP/CRM/MES等系统,将业务线上化,使得海量信息可以通过数字化手段进行互联互通快速处理。是以业务管理的规范化和优化为主要目标,主要侧重于以信息技术为支撑优 化提升其业务流程和企业管理。
2、工业运营技术(OT)Operation Technology
是为工厂自动化控制系统提供技术支持,确保生产正常进行的专业技术。
3、数字化转型(DT)Digital Transformation
指通过先进的云计算、人工智能、大数据、物联网、移动互联网手段,对信息系统的海量信息进行处理和挖掘,产生新的业务价值,并改变原 本的商业模式。以企业转型升级和创新发展为主要目标,主要侧重于以数字技术为引领打造数字新能力,推动传统业务创新变革,构建数字时代新商业模式,开辟数字经济新价值和发展新空间。
4、工业互联网
是新一代信息通信技术与工业经济深度融合的新型基础设施、应用模式和工业生态,通过对人、机、物、系统等的全面连接,构建起覆盖全产业链、全价值链的全新制造和服务体系,为工业乃至产业数字化、网络化、智能化发展提供了实现途径,是第四次工业革命的重要基石。
二
2个I差异(商业智能(BI)、生产运营智能(OI))与工业互联网
1、商业智能(BI)Business Intelligence
是一套完整的解决方案,可以将来自企业的不同业务系统(如ERP、OA、BPM等,包括自己开发的业务系统软件)的数据,提取出有用的数据进行整合清洗,在保证数据正确性的同时,进行数据分析和处理,并利用合适的查询和分析工具快速、准确地为企业提供报表展现与分析,提供决策支持。
2、生产运营智能(OI)Operation Intelligence
通过实时数据采集、工业互联网、智能计算与处理等多种技术,赋能研发、工程、工厂运营、营销与服务等企业关键经营活动。工厂及成员单位生产运营层面BI系统。
三
多个数据平台差异(数据仓库、大数据平、数据湖、数据中台、数据底座、湖仓一体化大数据平台 )
1、数据仓库(Data Warehouse)
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,需要容纳更加庞大的数据集。
2、数据湖(Data Lake)
数据湖是将来自不同数据源、不同数据类型(结构化、半结构化、非结构化)的数据,以原始格式存储进行存储的系统,并按原样存储数据,而无需事先对数据进行结构化处理。是各种原始数据的集合(不产生数据),原则上不对数据进行清洗、整合(不能对业务数据进行修改),入湖数据需要进行注册(经过治理并且满足要求)。
3、大数据平台1.0
个性化、多样化数据,以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,以 Hadoop、Spark、Hive 等作为大数据基础能力层,在大数据组件上搭建包括数据分析,机器学习程序等 ETL 流水线,以及包括数据治理系统、数据仓库系统、数据可视化系统等核心功能。
4、数据中台
数据中台是企业级数据能力共享平台,提供企业级数据服务,实现数据共享。数据通过分层与水平解耦,经过汇聚、存储、整合、分析、加工,沉淀公共的数据能力,再经过服务封装,形成通用的调用接口,为前端应用提供数据服务调用,支撑前端应用敏捷迭代和快速构建。数据直接用于业务链路和交易场景, 服务更多业务。数据中台不是一个标准化的产 品,是一整套策略和解决方案 的集合。
5、数据底座
数据底座是企业统一的数据平台,是数据的逻辑集合,由数据湖和数据主题联接两层构成,集成公司内部各个业务系统数据及外部数据,为业务可视、分析、决策等数据消费提供数据服务。数据底座由数据湖和数据主题联接构成。
6、湖仓一体化大数据平台Data Lakehouse
是新出现的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。就是把面向企业的数据仓库技术与数据湖存储技术相结合,为企业提供一个统一的、可共享的数据底座。大数据平台1.0+数据中台的功能+数据运营的功能=大数据平台2.0=湖仓一体化大数据平台(简称大数据平台)。
四
数据、数据资源、数据资产和数据要素
1、数据对客观事物(如事实、事件、事物、过程或思想)的数字化记录或描述,是无序的、未经加工处理的原始素材”。
根据《数据安全法》定义,“数据,是指任何以电子或者其他方式对信息的记录。”该定义在法律层面明确了数据的记录方式,并将“数据”和“信息”进行区分。按照这一界定,纸质的档案信息以及其他书面形式对信息所作的记录,也属于数据。
标准 ISO/IEC 11179-1:2015将“数据”定义为“以适合于交流、解释或处理的形式化方式对信息进行可重新解释的表 示”,该定义强调了“数据”的电子性质,其认为“数据”是对它代表的对象(信息)的解释;且该解释方式必须是权威、标准、通用的,只有这样才可以达到通信、解释和处理的目的。
国际数据管理协会认为,“数据是以文本、数字、图形、图像、声音和视频等格式对事实进行的表现”,对“数据”存在的不同形态进行了列举,指出“数据”是对事实的表现。
统计学将“数据”定义为“用于表示和解释而收集、分析和总结后的客观事实和数字符号