过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更大规模、高效和稳定的集群。
本文将向大家全面介绍即将到来的Apache Hadoop 3.0新版本——从版本发布状态、背后的故事,到如HDFS erasure coding、YARN federation、NN k-safety等全新的功能。
Hadoop 3.X简介
本次发行的Hadoop版本:hadoop-3.1.0,这是Apache Hadoop 3.1版本的第一个版本,它包含768个错误修复,自3.0.0以来最新的改进和增强版本。
由于Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,即hadoop 3.0。Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。
Apache hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+磁盘,共同处理数据。
改变最大的是hdfs,hdfs 通过最近block块计算,根据最近计算原则,本地block块,加入到内存,先计算,通过IO,共享内存计算区域,最后快速形成计算结果,比Spark快10倍。
Hadoop 3.0新特性
Hadoop 3.0在功能和性能方面,对hadoop内核进行了多项重大改进,主要包括:
通用性
1.精简Hadoop内核,包括剔除过期的API和实现,将默认组件实现替换成最高效的实现(比如将FileOut