数据治理中几个概念

随着人工智能发展对数据的要求,在更大范围内整合数据,出现不少数据概念,对比之前概念,做简要总结分析。

   1. 关系型数据库、数据仓库、数据集市

   2. 数据湖、数据沼泽、数据河

   3. 数据云

   4.数据治理、数据中台


    第一:关系型数据库是传统业务系统保存数据的地方,他更多倾向属于一个业务系统的数据。

               数据仓库一般来源与多个业务系统的数据,多源数据按照既定结果处理后的数据,一般数据仓库都是按层次划分。

               数据集市是数据仓库的一个子集,倾向与按照一类主体将数据进行组织与分析。

                关系型数据倾向于单个业务系统的数据保存,数据仓库倾向于多个业务系统的结构化处理(不一定就是结构化数据),数据集市按照一个既定主体,从底向上进行组织数据。


  第二:数据湖的出现主要原因有:1以往的数据仓库收集目前大量数据的前提,遇到性能的问题 2:以往 数据仓库更喜欢对源数据进行数据,但对目前大数据分析来讲,这样的处理容易污染源数据,所以出现数据湖的概念,数据湖通过收集各方便的数据,并且一定程度去ETL(本质是按需ETL或延迟ETL),防止源数据被污染,这样对后面大数据分析更方面。实际现在数据湖的架构主要也及时目前大家所说的大数据架构。

             数据湖的数据如果没有流动起来,就是死水,就会变成数据沼泽,这个时候需要通过数据河,来数据湖的数据流动起来。

      数据河是数据治理的主要手段。数据河主要实现数据集成后,数据标准,数据质量,数据安全等数据操作。


   第三:数据云的概念主要之前提的数据中心,云的概念更多体现数据的计算上,一般我们将这部分数据成为热数据,而将数据湖的数据成为冷数据。


 第四: 数据治理主要通过数据数据集成、数据标准(元数据,主数据),数据管控、数据质量和数据安全。

            数据中台可是理解是数据治理后的目标,数据中台的本质,可以用一句话:召之即来(数据获取的问题),来之能战(数据标准,质量,安全),战之必胜(数据价值)

  到这里基本上把几个概念搞清楚,还需要深入思考一下,为什么出现数据湖,为什么需要数据治理,为什么现在提数据中台,未来数据将会往哪里走?

       发展的基本脉络应该这样:

            1.Web发展促进功能性流程系统大发展,开发大量的信息系统,但每个系统的流程是独立

            2.互联网在Web的基础上促进流程系统吸引大量,实际给流程系统的用户基础,为后续数据基础起到决定性作用

           3.移动互联网记性加强上面作用

            这个时候借助云计算可以分析大量数据,但数据被之前构建的系统而分散,这个时候需要为各个应用系统做数据集成,提出数据治理的概念,最终形成数据中台为前台服务。

           发展到这个地方,数据的核心价值还没有真正发挥出来,数据中台只是手段,数据的价值才是目标,大数据最大的价值就是由原来由果索因变成由因构果,但这个构造的果是有特定的场景,需要我们提出来。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值