什么是数据湖?为什么需要数据湖?

写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。

数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。

因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。

企业对数据湖寄予厚望,希望它能帮助用户快速获取有用信息,并能将这些信息用于数据分析和机器学习算法,以获得与企业运行相关的洞察力。

补充

企业现状

企业数据当前的状态可以总结为以下几点:

传统DW(Data Warehouse)/BI(Business Intelligence)

  1. 使用ETL清洗来自生产业务应用的数据。
  2. 早于一定时间的数据会转移到另外的存储系统(如磁带)中,但是很难对这部分数据进行检索。
缺陷
  1. 数据仓库中保存的是清洗后的生产数据的子集;
  2. 在数据仓库中添加任何数据元素都需要付出代价;
  3. 数据仓库中保存的是全量数据的一个子集,其余数据会转存到另外的持久存储系统中去。
  4. 通常分析速度较慢,即使对查询做了一定程度的优化。

大数据孤岛

一些部门在建设大数据时采取了正确的措施。但是部门间通常不会互相协作,这些大数据平台就成了孤岛,并没有真正给企业带来价值。

缺陷
  1. 大数据平台的孤立性再次限制了分析师,使得分析师们无法跨部门整合和査询数据。
  2. 需要大量资金来构建、维护、管理这些数据孤岛,时间一长就难以为继。

大量非连接应用

在企业内部和云服务中部署大量应用程序。 除了产生结构化数据,应用程序也产生非结构化数据。

缺陷
  1. 互相没有通信。
  2. 即使有通信,数据科学家们既不能有效地利用这些数据,也不能对企业进行有益的改进。
  3. 各个业务应用在多个方面重复使用各种技术。

数据湖的必然性

并不是说投资构建数据湖是解决上述所有缺陷的“银弹”。但是这个方向一定是正确的,企业至少应该花时间去思考是否确实需要数据湖,如果答案是肯定的,就不要过多考虑,直接着手去构建。
构建数据湖是企业的一项战略级决策,在构建时需要所有相关人员的认可与支持,而且需要高管层投入精力关注这个项目。
基于数据湖,企业一定能找到改进业务流程的方法。 它能让高管人员更深入地了解业务,同时也能提升决策的成功率。

在过去的四五十年里,企业的组织形态发生了翻天覆地的变化,在企业漫长而又稳健的演化过程中,它们发现了各种通过在经营领域增加IT/软件系统来改进运营的途径和方法。
当企业成熟度发展到另一个阶段时,也会慢慢导致另外一个问题:系统之间互为孤岛,彼此之间很难交互。
随着企业的优化目标从局部优化转向全局优化,它们一直在利用一些新技术,如大数据技术,以找到方法和手段将数据从不同的IT系统汇集到一起,并进行进一步融合,以找到更好的方式来提高企业经营效率和有效性。这些方面的改进可以帮助企业节约成本。
所以说数据湖的诞生是必然的,它满足了企业这方面的需求。

  • 16
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 25
    评论
数据湖是一种存储和管理大规模、多样化数据的架构,它以原始、未加工的数据形式存储数据,包括结构化数据、半结构化数据和非结构化数据。数据湖采用扁平的存储结构,将数据存储在分布式文件系统中,如Hadoop Distributed File System(HDFS)或Amazon S3等。 数据湖的主要作用包括: 1. 数据集中存储:数据湖提供一个集中存储的地方,可以容纳各种类型和格式的数据,包括结构化数据(如关系型数据库中的表)、半结构化数据(如日志文件、JSON、XML等)和非结构化数据(如图像、音频、视频等)。这使得数据湖成为一个适用于大规模数据处理和分析的中心存储库。 2. 数据探索和发现:数据湖为数据分析师、科学家和业务用户提供了一个灵活的平台,他们可以在不事先定义模式或架构的情况下,直接对原始数据进行探索和发现。这种灵活性使得用户可以更自由地发现新的数据关系和洞察,并支持迭代式的分析和模型开发过程。 3. 数据预处理和转换:数据湖可以作为一个数据预处理的平台,可以应用各种转换和清洗操作来准备数据供后续分析使用。这些操作可以通过批处理或实时流处理来完成,以满足不同场景下的需求。 4. 数据分析和挖掘:数据湖提供了丰富的数据分析和挖掘能力,可以使用各种工具和技术来处理和分析数据,如SQL查询、机器学习、数据挖掘、可视化等。通过数据湖的弹性和可扩展性,可以支持大规模数据分析和挖掘任务。 5. 数据共享和协作:数据湖作为一个中心化的数据存储和管理平台,可以支持团队成员之间的数据共享和协作。不同团队或角色可以使用数据湖中的数据进行分析和开发,促进数据驱动的决策和合作。 总之,数据湖提供了一个灵活、可扩展和集中存储的平台,可以帮助组织以更有效的方式管理和分析大规模、多样化的数据。它能够满足不同层次和角色的用户需求,并支持数据驱动的决策和创新。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 25
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值