数据湖正成为新的数据仓库_数据湖正在成为新的数据仓库

数据湖正成为新的数据仓库

数据仓库又是相关的,还是垂死的品种?

如果您对此问题有些困惑,可以原谅。 一方面,数据仓库肯定似乎处于热销状态。 作为长期的行业观察家,我已经看到行业不断创新和启动活动的浪潮。

这种趋势从设备形态因素进入十年前的数据仓库主流时就开始了,然后在几年前随着市场向新一代云数据仓库转移而获得了新的发展势头。 在过去的几年中,一个云数据仓库供应商Snowflake在市场上获得了无与伦比的吸引力。

[InfoWorld的要点: 什么是Apache Spark? 大数据分析平台介绍了以下内容Spark教程:Apache Spark入门什么是数据挖掘? 分析如何发现见解 | 通过《 InfoWorld日报》时事通讯了解最新的企业技术中的关键新闻和问题。 ]

数据仓库的蚀

另一方面,数据仓库不断被新的行业范例所取代,例如大数据,机器学习和人工智能。 这种趋势给人的印象是,数据仓库作为企业IT优先事项正在下降,但是实际上,大多数组织现在至少有一个并且经常是多个数据仓库,为各种下游应用程序提供服务。

数据仓库作为企业核心工作负载的持久性就是为什么,几年前,我觉得我不得不就为什么数据仓库还没有死的问题做出自己的想法 。 这也可能解释了为什么其他观察者认为他们必须重新定义数据仓库的概念,以使其在数据湖和云计算时代保持相关性。

数据仓库作为一种实践不仅蓬勃发展,而且现在被认为是云计算行业可解决的中心增长领域。 但是,如果您仅专注于以该标签投放市场的平台(例如Snowflake),则可能会错过该领域的许多行动。

数据湖的兴起

许多人称其为“数据湖”,正在Swift演变为下一代数据仓库。 对于不熟悉该概念的人来说, 数据湖是多结构数据的系统或存储库,它们以其自然格式和架构存储,通常作为对象“ blob”或文件。

数据湖通常充当所有企业数据的单个存储,包括源系统数据的原始副本以及用于报告,可视化,分析和机器学习等任务的转换数据。 它们合并了分布式文件或对象存储,机器学习模型库以及高度并行化的处理和存储资源集群。 而且,数据湖通常不对存储的对象执行通用的架构和语义,而是在读取时进行架构,并使用统计模型从中提取有意义的关联和模式。

所有这些都与Inmon和Kimball核心概念不一致,后者为大多数专业人员提供了数据仓库方法。 从根本上说,存在一个数据仓库,用于汇总,保留和管理官方批准的“事实单版”数据记录。 该概念与要管理的数据的特定应用程序域以及使用该数据的特定用例无关。

如果你怀疑我说在这一点上什么,只是看看这个讨论数据仓库的比尔·因蒙的定义和这个比较 Inmon的和Ralph Kimball的框架。 数据仓库一般都是关于数据驱动的决策支持,这使其可以扩展到AI驱动的推理的新世界。

下一代数据仓库

在过去的一年中,几项备受业界关注的公告表明,数据仓库的角色已发生转变。 尽管决策支持(也称为商业智能,报告和联机分析处理)仍然是大多数数据仓库的核心用例,但我们看到正在稳步转向决策自动化。 换句话说,数据仓库现在正在支持数据科学管道,该管道为数据驱动的推理构建机器学习应用程序。

实际上,新一代数据仓库实际上是首先设计的数据湖,用于管理用于构建和训练机器学习模型的清洗,合并和批准的数据。 例如,在去年秋天Amazon re:Invent会议上 ,Amazon Web Services 宣布了 AWS Lake Formation 。 这项新的托管服务的明确目的是简化和加速安全数据湖的设置。 但是,AWS Lake Formation具有云数据仓库的所有特征,尽管AWS并没有这样称呼,实际上它已经提供了面向决策支持应用程序的经典数据仓库Amazon Redshift。

AWS Lake Formation看起来,走路并像数据仓库一样工作。 实际上,AWS以一种吸引人们进行比较的方式对其进行了描述:“数据湖是一个集中的,经过管理的安全存储库,以原始形式存储并为分析准备了所有数据。 数据湖使您能够打破数据孤岛,并结合不同类型的分析以获取见解并指导更好的业务决策。”

实际上,AWS将AWS Lake Formation展示为一种über数据仓库,可用于决策支持和AI驱动的决策自动化。 具体来说,供应商指出,该服务旨在管理“您的用户然后利用……选择分析和机器学习服务的数据集”,例如适用于Apache Spark的Amazon EMR,Amazon Redshift,Amazon Athena,Amazon SageMaker和Amazon QuickSight 。”

另一个恰当的例子是Databricks 最近宣布的Delta Lake开源项目。 Delta Lake的明确目的(现已获得Apache 2.0许可)与AWS Lake格式相似:聚合,清理,管理和治理数据湖中维护的数据集以支持机器学习管道。

Delta Lake位于可以从Apache Spark访问的现有本地或云数据存储平台的顶部,例如HDFS,Amazon S3或Microsoft Azure Blob存储。 Delta Lake将数据存储在Parquet中,以提供Databricks所谓的“事务存储层”。 Parquet是Hadoop生态系统中任何项目均可使用的开源列式存储格式,无论选择何种数据处理框架。 它通过乐观并发可序列化性,快照隔离,数据版本控制,回滚和模式实施来支持ACID事务。

Delta Lake和AWS Lake Formation之间的主要区别在于Delta Lake在该管道中同时处理批处理数据和流数据。 另一个是,Delta Lake支持所有数据上的ACID事务,从而使数百个应用程序可以同时进行多次写入和读取。 此外,开发人员可以访问每个Delta Lake的早期版本,以进行审核,回滚或重现MLFlow机器学习实验的结果

从最广泛的角度来看,Delta Lake似乎与最广泛采用的开源数据仓库项目Apache Hive竞争,尽管Hive完全依赖基于HDFS的存储,并且直到最近才缺乏对ACID事务的支持。 一年前宣布Hive 3终于为基于Hadoop的数据仓库带来了ACID支持 。 Hive 3使用增量文件在事务性CRUD(创建读取更新删除)表上提供操作的原子性和快照隔离。

AI驱动的决策自动化的基础

这些最近的行业公告(AWS Lake形成,Delta Lake和Hive 3)预示着数据湖成为所有决策支持和决策自动化应用以及所有事务性数据应用的治理中心的那一天。 为了加速这些趋势,像Hive 3和Delta Lake这样的开源项目将需要在供应商和用户之间获得更大的吸引力。

术语“数据仓库”可能会主要指商务智能化结构化数据的受管多域存储。 但是,基础数据平台将继续发展,以为基于云的人工智能管道提供核心数据治理基础。

人工智能而不是商业智能正在推动企业数据仓库的发展。

翻译自: https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html

数据湖正成为新的数据仓库

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值