大数据处理框架Hadoop

一、Hadoop简介

  • Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。
  • Hadoop有高可靠,高扩展,高效性,高容错等优点。
  • Hadoop 框架最核心的设计就是HDFS和MapReduce。
  • HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
  • Hadoop的运行模式分为3种:本地运行模式,伪分布运行模式,完全分布运行模式。
    (1)本地模式(local mode)
    这种运行模式在一台单机上运行,没有HDFS分布式文件系统,而是直接读写本地操作系统中的文件系统。在本地运行模式(local mode)中不存在守护进程,所有进程都运行在一个JVM上。单机模式适用于开发阶段运行MapReduce程序,这也是最少使用的一个模式。
    (2)伪分布模式
    这种运行模式是在单台服务器上模拟Hadoop的完全分布模式,单机上的分布式并不是真正的分布式,而是使用线程模拟的分布式。在这个模式中,所有守护进程(NameNode,DataNode,ResourceManager,NodeManager,SecondaryNameNode)都在同一台机器上运行。因为伪分布运行模式的Hadoop集群只有一个节点,所以HDFS中的块复制将限制为单个副本,其secondary-master和slave也都将运行于本地主机。此种模式除了并非真正意义的分布式之外,其程序执行逻辑完全类似于完全分布式,因此,常用于开发人员测试程序的执行。本次实验就是在一台服务器上进行伪分布运行模式的搭建。
    (3)完全分布模式
    这种模式通常被用于生产环境,使用N台主机组成一个Hadoop集群,Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机,Datanode运行的主机,以及SecondaryNameNode运行的主机。在完全分布式环境下,主节点和从节点会分开。

二、Apache Hadoop版本演变

  • Apache Hadoop版本分为两代,我们将第一代Hadoop称 为Hadoop
    1.0, 第二代Hadoop称为Hadoop 2.0
  • 第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x, 其
    中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21 .x和0.22.x则增加
    了NameNode HA等新的重大特性
  • 第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于
    Hadoop 1.0,是一- 套全新的架构,均包含HDFS Federation和YARN两
    个系统,相比于0.23.x,2.x增 加了NameNode HA和Wire compatibility
    两个重大特性
    在这里插入图片描述

三、Hadoop项目结构

在这里插入图片描述在这里插入图片描述

四、Hadoop各种版本

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值