Hadoop实践(零)---Hadoop作为数据湖

在研究Hadoop如何护理大数据之前,必须首先了解现代数据存储系统如何运作。

大数据的功能之一,是用于所有数据的中央存储库。

一些数据可能不适于存储在关系数据库中,大部分数据将需要按照原始形式存储

这一特性是Hadoop数据处理与更传统的方法的区别所在。

这个想法通常被称为“数据湖”是为所有的原始数据创建一个巨大的存储库,并根据需要使用它。

将这种方法与传统的关系数据库或数据仓库对比。

  1. 向数据库中添加数据的前提是先把数据转变成一个可以加载到数据库的预定的模式。这一步骤通常被称为提取、转换和加载(ETL),并且在可以使用数据之前,也会消耗时间和成本。最重要的是关于数据如何使用的决定必须在ETL步骤中间做出。此外,一些数据经常在ETL中被丢失,因为它不能放入数据模式或被认为是不需要的。

  2. Hadoop的重点是按照其原始格式使用数据。本质上,当数据由Hadoop应用程序访问时(看起来就像是执行ETL步骤)。这种方法,称为读时模式(schema on read),使程序员和用户在访问数据时,改变结构来满足自己的需求。传统的数据仓库方法,称为写时模式(schema on write),这需要更多的预先设计并对最终使用数据的方式进行更多的假设。

如前所述,对大数据而言,相比更为传统的方法,数据湖提供了如下三个优势:

  • 全部数据都保持可用,无需对未
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值