hadoop3.X的新特性

最新推荐文章于 2023-03-29 19:23:07 发布

学无止境王小帅

最新推荐文章于 2023-03-29 19:23:07 发布

阅读量246

点赞数

分类专栏：大数据文章标签： hadoop新特性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38340874/article/details/97418941

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.java版本更新

将默认的最低jdk从7升级到8

2. 纠删码

可以将3倍副本占据的空间压缩到1.5倍，并保持3倍副本的容错。由于在读取数据的时候需要进行额外的计算，用于存储使用不频繁的数据

3.YARN中的资源类型

通过扩展YARN的资源类型，支持CPU和内存之外的其他资源，如GPU、FPGA、软件许可证、本地存储等。

4.重写了shell脚本

重写了hadoop中的shell脚本，修复了很多长期存在的bug并添加了新特性。有一些改进兼容老版本，有一些不兼容。

5.MapReduce任务级别的本地优化

对map阶段的输出收集器增加了本地实现，对于洗牌密集型工作，可以提高30%以上的性能。

6.支持两个以上的NameNode

hadoop2.x中NameNode的HA包含一个active的NameNode和一个Standby的NameNode。解决了系统中NameNode的单点故障问题。在hadoop3中允许多个standby状态的NameNode以达到更高级别容错的目的

7.更改了hadoop中多个服务用到的端口默认值

以前，多个Hadoop服务的默认端口位于Linux临时端口范围（32768-61000）。这意味着在启动时，由于与另一个应用程序的冲突，服务有时无法绑定到端口。

这些冲突的端口已移出临时范围，影响NameNode，Secondary NameNode，DataNode和KMS。

8.支持与Microsoft Azure Data Lake和Aliyun对象存储系统进行集成

Hadoop现在支持与Microsoft Azure Data Lake和Aliyun对象存储系统的集成，作为替代Hadoop兼容的文件系统。

9.datanode内部的数据平衡器

单个DataNode管理多个磁盘。在正常写入操作期间，磁盘将被均匀填充。但是，添加或替换磁盘可能会导致DataNode内的严重数据偏斜。旧的HDFS平衡器不能处理，旧的HDFS平衡器处理DN之间而非内部的数据偏斜。

10.重做了守护进程的堆管理以及任务的堆管理

对Hadoop守护进程以及MapReduce任务的堆管理做了一系列更改。现在可以根据主机的内存大小进行自动调整，并且不推荐使用HADOOP_HEAPSIZE变量。简化了map和reduce任务堆空间的配置，在任务中不再需要以java选项的方式进行指定

11.S3Guard：S3A文件系统客户端的一致性和元数据缓存

为Amazon S3存储的S3A客户端添加了一个可选功能：能够将DynamoDB表用于文件和目录元数据的快速一致存储。

12.基于路由器的HDFS的联邦

HDFS基于路由器的联邦添加了一个RPC路由层，该层提供多个HDFS命名空间的联合视图。这与现有的ViewFs和HDFS联合功能类似，不同之处在于安装表由路由层而不是客户端在服务器端进行管理，简化了对现有HDFS客户端对联邦群集的访问。

学无止境王小帅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。