网关0.0.0.0是什么意思_什么是Hadoop 2.0高可用性?

Hadoop 1.0是密集型的,在处理大数据集方面起着重要作用,但是它不是交互式分析的理想选择,并且受机器学习,图形和内存密集型数据分析算法的约束。在之前的一篇文章中,我们讨论了有关Hadoop 2.0 YARN 框架以及管理Hadoop群集的职责如何从MapReduce转向YARN。在这里,我们将重点介绍功能-Hadoop 2.0中的高可用性,该功能通过设置辅助NameNode消除了Hadoop集群中的单点故障(SPOF)。如果您不熟悉Hadoop,请阅读我们以前的文章,以大致了解什么是大数据以及为何选择Hadoop,Hadoop体系结构及其组件。

Hadoop 1.0的早期采用者– Google,Facebook和Yahoo,不得不依赖资源管理环境,HDFS和Map Reduce编程的合资企业。这些技术之间的合作关系为这些数据巨头的Hadoop集群中的半结构化,结构化和非结构化数据的处理,管理和存储增加了价值。

但是,Hadoop Map Reduce配对中的限制为Hadoop 2.0铺平了道路。例如,Yahoo报告说,由于Map Reduce的批处理格式,Hadoop 1.x无法跟上他们在线收集的大量信息,而NameNodes SPOF一直是发生故障时的麻烦问题。

Hadoop 2.0 –概述

Hadoop 2.0通过一系列捆绑功能改善了系统的可扩展性和系统可用性,这些捆绑功能代表了YARN引入后Hadoop体系结构的提升

Hadoop 2.0还将解决方案引入了期待已久的高可用性问题。

  • Hadoop引入了YARN-能够使用各种非MapReduce应用程序(即GIRAPH和MPI)处理HDFS中存在的TB级和PB级数据。

  • Hadoop 2.0将过载的Job Tracker的职责划分为2个不同的组件,即Application Master(每个应用程序)和Global Resource Manager。

  • Hadoop 2.0通过HDFS联合改善了NameNode的水平可扩展性,并消除了NameNode高可用性带来的单点故障问题

Hadoop NameNode高可用性问题:

Hadoop 1.0 NameNode存在单点故障(SPOF)问题-这意味着,如果NameNode发生故障,那么Hadoop群集将变得不可行。但是,由于所有NameNode服务器的应用程序都使用具有RAS功能(可靠性,可用性和可维护性)的关键业务硬件,因此,预计这种情况很少发生。万一发生NameNode故障,则需要Hadoop管理员手动干预才能在辅助NameNode的帮助下恢复NameNode。

NameNode SPOF问题通过以下方式限制了Hadoop群集的整体可用性:

  • 如果在NameNode上进行了任何计划的硬件或软件升级维护活动,则将导致Hadoop群集整体停机。

  • 如果触发了任何计划外事件,从而导致机器崩溃,则除非Hadoop管理员重新启动NameNode,否则Hadoop群集将不可用。

Hadoop中的高可用性是什么?

Hadoop 2.0通过提供对多个NameNode的支持克服了SPOF的这一缺点。它引入了Hadoop 2.0高可用性功能,该功能为Hadoop架构引入了一个额外的NameNode(被动备用NameNode),该架构被配置为自动故障转移。

Hadoop 2.0高可用性项目的主要动机是通过部署2个Hadoop NameNode来为24/7大数据应用程序提供可用性-一个处于主动配置,另一个是处于被动配置的备用节点。

之前有一个Hadoop NameNode,用于维护HDFS文件的树层次结构并跟踪集群中的数据存储。Hadoop 2.0 High Availability允许用户使用不需要的NameNode配置Hadoop集群,从而消除给定Hadoop集群中出现SPOF的可能性。Hadoop配置功能允许用户使用几个可以通过公共数据存储池自主运行的NameNode来水平构建集群,从而与Hadoop 1.0相比提供更好的计算可扩展性

借助Hadoop 2.0,现在可以以一种方式配置Hadoop架构,使其支持具有完全堆栈弹性和热备用NameNode的自动故障转移。

b32c175f2f3b2087d132e5fec27eb8ca.png

从上图可以明显看出,主动和被动(备用)NameNode都具有最先进的元数据,可确保大型Hadoop群集的完美故障转移,这表明Hadoop群集不会出现任何停机,并且它将一直可用。

Hadoop的发现任何故障主NameNode,以便它可以自动切换到被动的NameNode即备用节点,以确保在大数据应用的HDFS服务的高可用性。随着Hadoop 2.0 HA的出现,Hadoop管理员应该喘口气了,因为此过程不需要手动干预。

借助HDP 2.0高可用性,完整的Hadoop堆栈(即HBase,Pig,Hive,MapReduce,Oozie)可以解决NameNode故障问题,而不必丢失工作进度或任何相关数据。因此,任何计划在特定时间完成的关键长期运行作业都不会受到NameNode故障的影响。

Hadoop用户对Hadoop 2.0高可用性的期望

当 Hadoop 用户接受有关Hadoop 2.0体系结构的高可用性要求的采访时,他们提出的一些最常见的高可用性要求是:

  • 不会因故障而丢失数据/不会导致作业失败/不会造成停机

Hadoop用户表示,使用Hadoop 2.0高可用性时,应确保不会由于任何单独的软件或硬件故障而对应用程序产生任何影响。

  • 代表多重失败 -

Hadoop用户表示,使用Hadoop 2.0高可用性,Hadoop集群必须能够同时承受多个故障。最好是,Hadoop配置必须允许管理员配置容忍度或让用户在资源级别上做出选择-集群可以容忍多少个故障。

  • 从故障中自我恢复

Hadoop用户表示,使用Hadoop 2.0 High Availability,Hadoop集群必须在没有任何手动干预的情况下自动修复(自我修复),以在故障后将其恢复到高可用性状态,并预先假定已经有足够的物理资源可用。

  • 易于安装

根据Hadoop用户的说法,设置高可用性应该是一件小事,无需Hadoop管理员安装任何其他开源或商业第三方软件。

  • 无需额外的硬件要求

Hadoop的用户说,Hadoop的2.0高可用性功能不应该要求用户部署,维护或购买额外的硬件。必须使用100%商品硬件来实现高可用性,即,不应再对非商品硬件(例如负载均衡器)有任何依赖性。

Hadoop高可用性简短测验

1)Hadoop 2.2有多少个Namenode?

Hadoop 2.2具有两个名称节点-主动名称节点和被动名称节点。

2)关于Hadoop高可用性,以下哪项是正确的?

i)Hadoop高可用性功能仅针对hadoop堆栈中的MapReduce组件解决了namenode故障问题。

ii)Hadoop高可用性功能仅支持Hadoop集群中的单个Namenode。

iii)Hadoop高可用性功能解决了hadoop堆栈中所有组件的namenode故障问题。

答案-iii

Hadoop 2.0高可用性功能–在Facebook上实施AvatarNode以解决可用性问题

Facebook是一个快速发展的大数据组织,拥有将近5亿活跃用户,他们以博客文章,照片,新闻报道,链接,评论等形式在网络上共享超过300亿条内容。大约有700人花在了每月在Facebook上的通话时间为10亿分钟,并且该数据据说每年半年翻一番。Facebook如何为如此庞大的用户数据库提供高可用性?Facebook使用Hadoop 2.0高可用性功能,通过使用特殊的AvatarNode,可以确保100 PB的数据24/7全天候在线。

Facebook工程经理Ashish Suchoo在Hadoop峰会上表示:“ Facebook广泛使用Hadoop 2.0和Hive处理大型数据集。该基础结构可用于各种不同的工作-包括临时分析,报告,索引生成等。我们拥有最大的集群之一,总存储磁盘容量超过20PB,核心数量超过23000。我们还将Hadoop和Scribe用于日志收集,每天带来超过50TB的原始数据。Hadoop帮助我们扩展了这些庞大的数据量。”

在HDFS体系结构中,所有文件系统元数据请求都通过称为NameNode的单个服务器传递,并且文件系统通过一组数据节点发送和接收数据。HDFS体系结构中数据节点的存在是多余的,并且在任何给定的时间点,文件系统都可以承受数据节点的故障,但是,如果NameNode发生故障,那么HDFS的整体功能将受到威胁。并且与其连接的任何应用程序都将停止运行。

Facebook的Hadoop专业人员Andrew Ryan在Hadoop峰会之一上提到:“像Facebook这样的大型组织必须了解'NameNode作为单点故障点'的程度和水平,以便他们可以构建一个解决方案,克服了NameNode作为SPOF的缺点”。

AvatarNode出生于解决NameNode问题

3463cdb885961b684f315abb14d5108c.png

随着Facebook上AvatarNode的诞生,HDFS架构SPOF的局限性得以克服。想知道为什么它有这么不寻常的名字?

Facebook上著名的HDFS开发人员Dhruba Borthakur以其在2009年发行的James Cameron电影《阿凡达》中的AvatarNode诞生为它命名。

Facebook已将AvatarNode作为开源软件贡献给Hadoop社区,以提供具有热故障转移和故障回复功能的高可用性NameNode。AvatarNode是一个双节点或可以称为两节点群集,它通过手动故障转移为大数据应用程序提供了高可用性的NameNode。

AvatarNode现在是Facebook内的焦点人物,因为它是NameNode SPOF问题的巨大胜利。AvatarNode运行着繁重的生产工作负载,并为改善Facebook上Hadoop集群的管理和可靠性做出了贡献。

Hadoop 2.2现在在Windows上受支持,现在吸引了仅致力于Microsoft平台的组织的关注。毫无疑问,随着组织迁移到最新版本的Hadoop,将会有越来越大的痛苦 ,但是对MapReduce框架的基本更改将为Hadoop在大数据设置中增加价值。Hadoop 2.0只是不断发展的技术的使者,也是构建和实施大数据应用程序的复兴概念。人们期望各种工具能够充分利用Hadoop 2.0高可用性,并且新的HDFS架构将支持YARN中的功能 。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值