【大数据入门核心技术-Hadoop】（十一）Hadoop快照Snapshot详解

forest_long

于 2022-12-18 21:52:45 发布

阅读量538

点赞数 2

分类专栏：大数据技术入门到21天通关文章标签： hadoop mapreduce hdfs 大数据数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/forest_long/article/details/128349167

版权

大数据技术入门到21天通关专栏收录该内容

162 篇文章 8 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨大数据时代背景下，Hadoop作为核心处理工具的重要性。Hadoop通过MapReduce解决大规模数据处理问题，提供高可靠性的分布式计算。MapReduce将硬盘读写转化为对键值对的计算，简化复杂性。Hadoop的发展历史源自Apache Nutch搜索引擎项目，如今成为大数据处理的重要组成部分。

摘要由CSDN通过智能技术生成

我们生活在这个数据大爆炸的时代，很难估算全球电子设备中存储的数据总共有多少。当前一个中小型公司的数据量也达到数十TB，甚至更多。

有句话说得好：“ 大数据胜于好算法。” 意思是说对于某些应用（譬如根据以往的偏好来推荐电影和音乐），不论算法有多牛，基于小数据的推荐效果往往都不如基于大量可用数据的一般算法的推荐效果。

我们遇到的问题很简单：在硬盘存储容量多年来不断提升的同时，访问速度（硬盘数据读取速度）却没有与时俱进。
第二个问题是大多数分析任务需要以某种方式结合大部分数据来共同完成分析，即从一个硬盘读取的数据可能需要与从另外 99 个硬盘中读取的数据结合使用。各种分布式系统允许结合不同来源的数据进行分析，但保证其正确性是一个非常大的挑战。

MapReduce 提出一个编程模型，该模型抽象出这些硬盘读写问题井将其转换为对一个数据集（由键值对组成）的计算。后文将详细讨论这个模型，这样的计算由 map 和 reduce 两部分组成，而且只有这两部分提供对外的接口。与HDFS 类似，MapReduce自身也有很高的可靠性。

MapReduce 看似采用了一种蛮力方法。每个查询需要处理整个数据集或至少一个数据集的绝大部分。但反过来想，这也正是它的能力。MapReduce 是一个批量查询处理器，

了解本专栏

超级会员免费看

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

forest_long 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。