hadoop 3.0新特性简单介绍

最新推荐文章于 2025-03-11 11:28:52 发布

流一恩典

最新推荐文章于 2025-03-11 11:28:52 发布

阅读量9.8k

点赞数 8

分类专栏： hadoop篇文章标签：新特性 hadoop 3.0

本文链接：https://blog.csdn.net/czz1141979570/article/details/97501290

版权

Apache Hadoop 3.0引入了多项重大改进，如HDFS Erasure Coding以节省存储空间，多NameNode支持，MapReduce的C/C++ map output collector实现提高性能，以及YARN资源模型的扩展。此外，还对shell脚本进行了重构，支持数据节点均衡器和基于HDFS路由器的联合。这些新特性提升了Hadoop的可靠性和效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

过去十年，Apache Hadoop从无到有，从理论概念演变到如今支撑起若干的生产集群。接下来的十年，Hadoop将继续壮大，并发展支撑新一轮的更大规模、高效和稳定的集群。

本文将向大家全面介绍即将到来的Apache Hadoop 3.0新版本——从版本发布状态、背后的故事，到如HDFS erasure coding、YARN federation、NN k-safety等全新的功能。

Hadoop 3.X简介

本次发行的Hadoop版本：hadoop-3.1.0，这是Apache Hadoop 3.1版本的第一个版本，它包含768个错误修复，自3.0.0以来最新的改进和增强版本。

由于Hadoop 2.0是基于JDK 1.7开发的，而JDK 1.7在2015年4月已停止更新，这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本，即hadoop 3.0。Hadoop 3.0中引入了一些重要的功能和优化，包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。

Apache hadoop 项目组最新消息，hadoop3.x以后将会调整方案架构，将Mapreduce 基于内存+io+磁盘，共同处理数据。

改变最大的是hdfs,hdfs 通过最近block块计算，根据最近计算原则，本地block块，加入到内存，先计算，通过IO，共享内存计算区域，最后快速形成计算结果，比Spark快10倍。