随着人工智能发展对数据的要求,在更大范围内整合数据,出现不少数据概念,对比之前概念,做简要总结分析。
1. 关系型数据库、数据仓库、数据集市
2. 数据湖、数据沼泽、数据河
3. 数据云
4.数据治理、数据中台
第一:关系型数据库是传统业务系统保存数据的地方,他更多倾向属于一个业务系统的数据。
数据仓库一般来源与多个业务系统的数据,多源数据按照既定结果处理后的数据,一般数据仓库都是按层次划分。
数据集市是数据仓库的一个子集,倾向与按照一类主体将数据进行组织与分析。
关系型数据倾向于单个业务系统的数据保存,数据仓库倾向于多个业务系统的结构化处理(不一定就是结构化数据),数据集市按照一个既定主体,从底向上进行组织数据。
第二:数据湖的出现主要原因有:1以往的数据仓库收集目前大量数据的前提,遇到性能的问题 2:以往 数据仓库更喜欢对源数据进行数据,但对目前大数据分析来讲,这样的处理容易污染源数据,所以出现数据湖的概念,数据湖通过收集各方便的数据,并且一定程度去ETL(本质是按需ETL或延迟ETL),防止源数据被污染,这样对后面大数据分析更方面。实际现在数据湖的架构主要也及时目前大家所说的大数据架构。
数据湖的数据如果没有流动起来,就是死水,就会变成数据沼泽,这个时候需要通过数据河,来数据湖的数据流动起来。
数据河是数据治理的主要手段。数据河主要实现数据集成后,数据标准,数据质量,数据安全等数据操作。
第三:数据云的概念主要之前提的数据中心,云的概念更多体现数据的计算上,一般我们将这部分数据成为热数据,而将数据湖的数据成为冷数据。
第四: 数据治理主要通过数据数据集成、数据标准(元数据,主数据),数据管控、数据质量和数据安全。
数据中台可是理解是数据治理后的目标,数据中台的本质,可以用一句话:召之即来(数据获取的问题),来之能战(数据标准,质量,安全),战之必胜(数据价值)
到这里基本上把几个概念搞清楚,还需要深入思考一下,为什么出现数据湖,为什么需要数据治理,为什么现在提数据中台,未来数据将会往哪里走?
发展的基本脉络应该这样:
1.Web发展促进功能性流程系统大发展,开发大量的信息系统,但每个系统的流程是独立
2.互联网在Web的基础上促进流程系统吸引大量,实际给流程系统的用户基础,为后续数据基础起到决定性作用
3.移动互联网记性加强上面作用
这个时候借助云计算可以分析大量数据,但数据被之前构建的系统而分散,这个时候需要为各个应用系统做数据集成,提出数据治理的概念,最终形成数据中台为前台服务。
发展到这个地方,数据的核心价值还没有真正发挥出来,数据中台只是手段,数据的价值才是目标,大数据最大的价值就是由原来由果索因变成由因构果,但这个构造的果是有特定的场景,需要我们提出来。