1、hadoop前言

最新推荐文章于 2023-03-09 19:51:28 发布

gdgylpc

最新推荐文章于 2023-03-09 19:51:28 发布

阅读量271

点赞数

分类专栏： Hadoop 文章标签：大数据 hadoop spark 编程语言 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/resilienter/article/details/103696773

版权

Hadoop 专栏收录该内容

25 篇文章 1 订阅

订阅专栏

本文介绍了Hadoop作为大数据处理的重要框架，包括其在大数据背景下的定义、Hadoop的核心组件及其优势。重点讨论了Hadoop1.x和2.x的区别，强调了2.x通过YARN实现资源调度的改进，使得更多计算框架能够接入。

摘要由CSDN通过智能技术生成

Hadoop前言

Hadoop前言
- 大数据
- Hadoop

大数据

大数据指在规定的时间内使用常规软件无法处理的数据集！它具有数据集通常有以下特点：

海量：数据量很大，以往的传统数据库根本存不下，存下来也难以处理
高增长率：大数据的增长速度极快，双十一一天的数据就无限大。
形式多样：除了结构化数据，还有非结构化数据和半结构化数据
低价值：大数据单位数据量的价值量远远比不上传统的数据，但胜在以量取胜。

Hadoop

是什么

Hadoop狭义上指的是Hadoop框架，包括HDFS，yarn和Map-Reduce.在广义上指的是以Hadoop为核心的大数据生态体系。其中我认为Hadoop的核心是HDFS，HDFS是一个适合大数据存储的文件系统，可靠性高。yarn是从MapReduce中独立出来的，主要是用于资源调度。Map-Reduce是一个编程模型，适用于本地大数据的计算。

有什么优势

高可靠：每份数据在HDFS存储时，都会存储多个副本，由HDFS自动维护副本数！
易扩展：当集群的存储能力不够或计算能力不够，都可以方便第向集群中添加机器！
高容错： Map-Reduce在计算时，可以自动采取容器机制，一旦有节点执行的计算任务失败，会自动分配到其他节点执行！
高效： MR在运行时是分布式运算，效率高(对比传统的计算方式)！

Hadoop1.x 和 hadoop2.x的区别

1.x的MapReduce编程模型，既负责计算，也负责为计算的程序申请和调度硬件资源！弊端：所有的程序必须按照MR的模型进行编写，才可以使用Hadoop集群中的硬件资源！

2.x时，将资源的调度从MR中分离，使用YARN进行资源的调度。MR只负责一个计算模型！好处：一个Hadoop集群，在运行自身的MR程序时，可以从YARN申请资源！其他的计算框架，例如Spark，Flink，Tez等也可以对接YARN，来申请资源进行运算！ 2.x开始支持HA(高可用的Hadoop)

虽然现在出了Hadoop3，但这次我的学习主要集中于hadoop2 Hadoop3 相比于Hadoop2只做出以下改进 HDFS改进：支持erasure编码，支持超过两个namenode，数据均衡，多个服务端口发生变化，变化不是那么大。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

gdgylpc CSDN认证博客专家 CSDN认证企业博客

码龄7年

124: 原创

15万+: 周排名

53万+: 总排名

4万+: 访问

: 等级

371: 积分

5: 粉丝

7: 获赞

2: 评论

36: 收藏

私信

关注

分类专栏

scala 21篇
Hadoop 25篇
C 5篇
octave 7篇
svm

最新评论

22、Yarn
ctotalk: 加油
4.流程控制
ctotalk: 不错，学习了。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。