数据湖初识(01)

本文探讨了数据湖的定义及其与数据仓库的区别。随着技术演进,数据湖趋向实时化、低成本化和去结构化,旨在解决传统数据仓库的局限。文章分析了实时数据仓库面临的挑战,并讨论了数据湖如何统一实时和离线数据处理,降低成本,以及其在数据保真性和灵活性方面的优势。
摘要由CSDN通过智能技术生成

数据湖初识

读者交流群已经开通了,有需要的可以私信进入读者交流群

近两年,为什么都开始谈论起 Data Lake 这个”新名词”了?

先说说我的想法,其实还是用户需求驱动数据服务,大家开始关注 Data Lake 的根本原因是用户需求发生了质变,过去的数据仓库模式以及相关组件没有办法满足日益进步的用户需求。

数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。最开始,企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。

那么到底是什么样的需求和挑战驱动了技术的变革,从而导致了新技术的产生呢

数据湖的定义

Wikipedia上说数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件,包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。

AWS定义数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。

微软的定义就更加模糊了,并没有明确

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不二人生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值