Hadoop3.X的新特性

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Sven119/article/details/79962593

Hadoop3.0.0版本的新特性:

  1. Java最低版本要求从Java7更改成Java8
  2. HDFS支持纠删码(Erasure Coding)
  3. 引入YARN的时间轴服务v.2(YARN Timeline Service v.2)
  4. 重写了shell脚本
  5. 隐藏底层jar包(shaded client jars)
  6. 支持containers和分布式调度
  7. MapReduce任务级本地优化
  8. 支持多于两个的NameNodes
  9. 改变了多个服务的默认端口(例如:HDFS的web界面,端口由50070变成9870)
  10. 支持Microsoft Azure Data Lake文件系统(这个文件系统可以更轻松的存储任何大小、形状和速度的数据以及跨平台和语言进行各种类型的处理和分析,消除了出入和存储所有数据的复杂性,同时启动更快,可批量、流式、交互式分析仪器运行。)
  11. Intra-datanode(用Intra解决DataNode宕机负载不均衡的问题)
  12. 重写守护进程以及任务的堆内存管理
  13. 使用S3Guard进行AMAZON S3一致性(解决客户端同时进行查询、上传操作时,数据元和显示给客户端的数据不一致问题)

Hadoop3.1.0版本的新特性:

  1. It supports both docker container and traditional process based containers in YARN.(支持docker container和传统的基于流程的container)
  2. First-class GPU scheduling and isolation (For both docker/non-docker containers) on YARN.(在YARN上支持一流的GPU调度)
  3. First-class FPGA scheduling and isolation (For both docker/non-docker containers) on YARN.(在YARN上支持一流的FPGA调度)
  4. Support more expressive placement constraints in YARN. (YARN 新的调度放置策略)
  5. Support administrators to specify absolute resources (X Memory, Y VCores, Z GPUs, etc.) to a queue instead of providing percentage based values. This provides better control for admins to configure required amount of resources for a given queue.(容量调度(Capacity Scheduler):支持在执行队列映射时自动创建叶队列)
  6. Provided storage allows data stored outside HDFS to be mapped to and addressed from HDFS. It builds on heterogeneous storage by introducing a new storage type, PROVIDED, to the set of media in a DataNode.(允许将存储在 HDFS 之外的数据映射到 HDFS 并从 HDFS 进行寻址。)

按照官网和牛人博客(过往记忆)进行整理,由于学识有限,若有问题请及时指出,避免误导他人,谢谢。

阅读更多 登录后自动展开
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页