Hadoop实践（零）---Hadoop作为数据湖

最新推荐文章于 2024-09-04 07:30:00 发布

狮锅艺

最新推荐文章于 2024-09-04 07:30:00 发布

阅读量2.9k

点赞数

分类专栏： Hadoop HDFS Hadoop实践文章标签： hadoop 大数据数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wee_Mita/article/details/55805701

版权

本文探讨了Hadoop在大数据处理中的角色，对比了它与传统关系数据库和数据仓库的区别。Hadoop强调原始数据存储，采用读时模式，提供更灵活的数据使用方式。数据湖的优势在于保留所有数据、促进共享和允许多种访问方法。虽然Hadoop不完全替代数据仓库，但随着新数据源的增长，其在数据湖中的应用日益重要。

摘要由CSDN通过智能技术生成

在研究Hadoop如何护理大数据之前，必须首先了解现代数据存储系统如何运作。

大数据的功能之一，是用于所有数据的中央存储库。

一些数据可能不适于存储在关系数据库中，大部分数据将需要按照原始形式存储。

这一特性是Hadoop数据处理与更传统的方法的区别所在。

这个想法通常被称为“数据湖”是为所有的原始数据创建一个巨大的存储库，并根据需要使用它。

将这种方法与传统的关系数据库或数据仓库对比。

向数据库中添加数据的前提是先把数据转变成一个可以加载到数据库的预定的模式。这一步骤通常被称为提取、转换和加载（ETL），并且在可以使用数据之前，也会消耗时间和成本。最重要的是关于数据如何使用的决定必须在ETL步骤中间做出。此外，一些数据经常在ETL中被丢失，因为它不能放入数据模式或被认为是不需要的。
Hadoop的重点是按照其原始格式使用数据。本质上，当数据由Hadoop应用程序访问时（看起来就像是执行ETL步骤）。这种方法，称为读时模式（schema on read），使程序员和用户在访问数据时，改变结构来满足自己的需求。传统的数据仓库方法，称为写时模式（schema on write），这需要更多的预先设计并对最终使用数据的方式进行更多的假设。

如前所述，对大数据而言，相比更为传统的方法，数据湖提供了如下三个优势：

全部数据都保持可用，无需对未

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

狮锅艺 CSDN认证博客专家 CSDN认证企业博客

码龄9年

185: 原创

7万+: 周排名

87万+: 总排名

30万+: 访问

: 等级

4869: 积分

85: 粉丝

54: 获赞

9: 评论

124: 收藏

私信

关注

热门文章

分类专栏

Golang 1篇
感悟 1篇
基础算法（Java） 27篇
Spark原理 8篇
Java实践 33篇
Hadoop实践 29篇
Maven实践 12篇
Shell编程 5篇
深入理解计算机系统 1篇
Linux 30篇
Java 59篇
Spark 8篇
Maven 15篇
Hadoop 46篇
MapReduce 23篇
Mahout 6篇
HDFS 13篇
Ambari 5篇
ZooKeeper 1篇
Windows 6篇
vSphere 5篇
Office 9篇
数据结构与算法分析 28篇
源代码 15篇
GitHub 1篇
图计算 1篇
计算机系统 1篇

最新评论

Hadoop实践（三）---MR作业运行（源码详解）
No Kill Leader: 哈哈
Hadoop实践（三）---MR作业运行（源码详解）
侠客刀: 这叫源码解析，，，
Linux下识别NTFS格式的U盘
程序员部落Pro: 谢谢博主，学习了
基础算法（零）---递归
狮锅艺回复 Mr.隐者: [code=java] package T616; import java.util.Scanner; /** * Created by Promacanthus on 2017/6/16. */ public class fibonacci { private static int k = 0; private long n; fibonacci(long n) { System.out.println(calfibonacci(n)); } private long calfibonacci(long n) { if (n == 0 || n == 1) { k++; return n; } else { return calfibonacci(n - 1) + calfibonacci(n - 2); } } public static void main(String[] args) { Scanner scanner = new Scanner(System.in); long n = scanner.nextLong(); new fibonacci(n); System.out.println("Total call " + k + " times"); } } [/code]
基础算法（零）---递归
Mr.隐者: 打不开代码栏

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。