Hadoop3.x有哪些新特性？_hadoop 3系列支持对象存储么-CSDN博客

本文链接：https://blog.csdn.net/Shockang/article/details/117267177

写在前面

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系

解答

最低Java版本要求从Java7变为Java8
HDFS支持纠删码（erasure coding）
YARN时间线服务 v2(YARN Timeline Service v2)
YARN资源类型一般化
重写Shell脚本
覆盖客户端的jar（Shaded client jars）
支持Opportunistic Containers和Distributed Scheduling
MapReduce任务级本地优化
支持多余2个以上的NameNodes
修改了多重服务的默认端口
提供文件系统连接器（filesystem connector）,支持Microsoft Azure Data Lake和Aliyun对象存储系统
数据节点内置平衡器（Intra-datanode balancer）
重写了守护进程和任务的堆管理机制
S3Guard:为S3A文件系统客户端提供一致性和元数据缓存
HDFS的基于路由器互联（HDFS Router-Based Federation）
基于API配置的Capacity Scheduler queue configuration

补充

最低Java版本要求从Java7变为Java8

所有Hadoop的jar都是基于Java 8运行是版本进行编译执行的，仍在使用Java 7或更低Java版本的用户需要升级到Java 8。

HDFS支持纠删码（erasure coding）

纠删码是一种比副本存储更节省存储空间的数据持久化存储方法。

比如Reed-Solomon(10,4)标准编码技术只需要1.4倍的空间开销，而标准的HDFS副本技术则需要3倍的空间开销。
由于纠删码额外开销主要在于重建和远程读写，它通常用来存储不经常使用的数据（冷数据）。
另外，在使用这个新特性时，用户还需要考虑网络和CPU开销。

Hadoop 2.x - 可以通过复制（浪费空间）来处理容错。
Hadoop 3.x - 可以通过Erasure编码处理容错。

YARN时间线服务 v2(YARN Timeline Service v2)

YARN Timeline Service v.2用来应对两个主要挑战：
1. 提高时间线服务的可扩展性、可靠性，
2. 通过引入流(flow)和聚合(aggregation)来增强可用性。
在hadoop2.4版本之前对任务执行的监控只开发了针对MR的Job History Server，它可以提供给用户用户查询已经运行完成的作业的信息，但是后来，随着在YARN上面集成的越来越多的计算框架，比如spark、Tez，也有必要为基于这些计算引擎的技术开发相应的作业任务监控工具，所以hadoop的开发人员就考虑开发一款更加通用的Job History Server，即YARN Timeline Server

YARN资源类型一般化

Yarn资源模型已经被一般化，可以支持用户自定义的可计算资源类型，而不仅仅是CPU和内存。

比如，集群管理员可以定义像GPU数量，软件序列号、本地连接的存储的资源。然后，Yarn任务能够在这些可用资源上进行调度。

重写Shell脚本

Hadoop的shell脚本被重写，修补了许多长期存在的bug，并增加了一些新的特性。

覆盖客户端的jar（Shaded client jars）

在2.x版本中，hadoop-client Maven artifact配置将会拉取hadoop的传递依赖到hadoop应用程序的环境变量，这回带来传递依赖的版本和应用程序的版本相冲突的问题。
HADOOP-11804 添加新 hadoop-client-api和hadoop-client-runtime artifact，将hadoop的依赖隔离在一个单一Jar包中，也就避免hadoop依赖渗透到应用程序的类路径中。