Hadoop 3.x 新特性
相对于之前主要生产发布版本 Hadoop 2,Apache Hadoop 3 整合许多重要的增强功能。 Hadoop 3 是一个可用版本,提供了稳定性和高质量的 API,可以用于实际的产品开发。最低 Java 版本要求从 Java7 变为 Java8,所有 Hadoop 的 jar 都是基于 Java 8 运行是版本进行编译执行的,仍在使用Java 7或更低Java版本的用户需要升级到Java 8。
下面简要介绍一下Hadoop3的主要变化。
HDFS 支持纠删码(erasure coding)
纠删码是一种比副本存储更节省存储空间的数据持久化存储方法。比如 Reed-Solomon(10,4) 标准编码技术只需要1.4倍的空间开销,而标准的HDFS副本技术则需要3倍的空间开销。由于纠删码额外开销主要在于重建和远程读写,它通常用来存储不经常使用的数据(冷数据)。另外,在使用这个新特性时,用户还需要考虑网络和CPU开销。
YARN 时间线服务 v.2(YARN Timeline Service v.2)
YARN Timeline Service v.2 用来应对两个主要挑战:(1)提高时间线服务的可扩展