Hadoop_04_stanAlone

Hadoop

hadoop的发展历史:
最初起源于nutch的项目,是一个爬虫项目,Doug cutting写的抓取回来的数据量太大,遇到两个问题:
第一个问题:如何存储 第二个问题:如何检索

如何检索:lucene
如何存储:
谷歌发了三篇论文关于解决存储的思想:
GFS: 分布式文件系统,可用于处理海量网页的存储
Bigdata;
mapreduce:分布式计算框架,可用于处理海量网页的索引计算问题

Hadoop :
HDFS (hadoop distributed file system)
mapreduce(分布式文件计算系统)

Hbase (非关系型的数据库)

Hadoop生态圈:
在这里插入图片描述
Hadoop历史版本
0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性

hadoop三大公司发型版本介绍
免费开源版本apache:apache版本
免费开源版本hortonWorks:hortonworks
软件收费版本ClouderaManager:cloudera

Hadoop 的架构模型

1.x的版本架构模型

文件系统核心模块:典型的主从架构,没有主备的概念
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据
secondaryNameNode:主要是辅助namenode管理元数据信息的
DataNode:集群当中的从节点,主要用于存储数据

数据计算核心模块:mapReduce分布式文件计算系统
JobTracker:主节点,接收用户请求,分配任务给taskTracker去执行
TaskTracker:从节点,主要用于接收jobTracker分配的任务
在这里插入图片描述

2.x的版本架构模型介绍

1.NameNode与ResourceManager单节点架构模型

文件系统核心模块:hdfs文件系统
NameNode:集群当中的主节点,主要用于维护元数据信息,以及处理用户的请求
secondaryNameNode:主主要是辅助namenode管理元数据信息的
DataNode:集群当中的从节点,主要用于存储数据

数据计算核心模块:yarn资源调度系统
ResourceManager:
yarn资源调度系统的主节点,接收用户请求,分配资源(分配CPU ,分配内存等等)
NodeManager:
从节点,主要用于处理计算任务

在这里插入图片描述

2.NameNode单节点与ResourceManager高可用架构模型

文件系统核心模块:hdfs文件系统
NameNode:集群当中的主节点,主要用于维护元数据信息,以及处理用户的请求
secondaryNameNode:主主要是辅助namenode管理元数据信息的
DataNode:集群当中的从节点,主要用于存储数据

数据计算核心模块
ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分,通过zookeeper实现ResourceManager的高可用
NodeManager:负责执行主节点ResourceManager分配的任务
在这里插入图片描述

3.NameNode高可用与ResourceManager单节点架构模型

文件系统核心模块
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,其中nameNode可以有两个,形成高可用状态
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据
JournalNode:文件系统元数据信息管理

数据计算核心模块
ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分
NodeManager:负责执行主节点ResourceManager分配的任务
在这里插入图片描述

namenode高可用

  • namenode active状态:处于活跃的主节点,处理用户请求,维护元数据信息
  • namenode stand 状态:处于备份的节点,活跃的主节点死了之后,备份的节点,马上切换为活跃的主节点,对外提供服务
    如果namenode高可用,那么一定要保证namenode的元数据信息同步一致,如果不一致,就会出现脑裂的问题
  • journalNode:为了解决元数据共享的问题,引入journalNode的机制,专门用于同步元数据信息
  • zkfc:zkFailoverController
    amenode的守护进程,主要用于监听namenode什么时候死掉,死掉了之后,马上通知另外一个namenode切换为主节点
4.NameNode与ResourceManager高可用架构模型

文件系统核心模块
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,一般都是使用两个,实现HA高可用
JournalNode:元数据信息管理进程,一般都是奇数个
DataNode:从节点,用于数据的存储

数据计算核心模块
ResourceManager:Yarn平台的主节点,主要用于接收各种任务,通过两个,构建成高可用
NodeManager:Yarn平台的从节点,主要用于处理ResourceManager分配的任务
在这里插入图片描述
namenode与resourceManager的高可用
hadoop 2.0版本引入namenode高可用机制
resourcemanager 2.4.0版本引用高可用机制

apache版本的hadoop三种运行环境的介绍

  1. stanAlone环境:单机版的hadoop运行环境
  2. 伪分布式环境:主节点都在一台机器上面,从节点分开到其他机器上面 借助三台机器来实现
    namenode resourceManager
  3. 完全分布式环境:主节点全部都分散到不同的机器 namenode active 占用一台机器 namenodestandBy占用一台机器 resourceManger active 占用一台机器 resourceManagerstandby占用一台机器

stanAlone环境搭建

运行服务服务器IP
NameNode192.168.190.3
SecondaryNameNode192.168.190.3
DataNode192.168.190.3
ResourceManager192.168.190.3
NodeManager192.168.190.3
jobhistory192.168.190.3

下载连接:apache hadoop 2.7.5

  1. 解压到sever文件夹
    cd /export/softwares
    tar -zxvf hadoop-2.7.5.tar.gz -C …/servers/

  2. 文件配置
    core-site.xml:核心配置文件,主要定义了我们的集群是分布式,还是本机运行
    hdfs-site.xml: 分布式文件系统的核心配置 决定了我们数据存放在哪个路径,数据的副本,数据的block块大小等等
    linux的磁盘空间的查看 df -lh
    hadoop-env.sh 配置我们jdk的home路径
    mapred-site.xml 定义了我们关于mapreduce运行的一些参数
    yarn-site.xml 定义我们的yarn集群
    slaves 定义了我们的从节点是哪些机器 datanode nodemanager运行在哪些机器上

  3. 生成相关文件夹
    cd /export/servers/hadoop-2.7.5
    mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/tempDatas
    mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas
    mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2
    mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas
    mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2
    mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/nn/edits
    mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/snn/name
    mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

  4. 启动集群
    首次启动 HDFS 时,必须对其进行格式化操作
    cd /export/servers/hadoop-2.7.5/
    bin/hdfs namenode -format
    启动:
    sbin/start-dfs.sh
    sbin/start-yarn.sh
    sbin/mr-jobhistory-daemon.sh start historyserver

  5. 网页查看端口
    50070默认看hdfs集群
    8088默认看yarn集群
    19888默认查看历史任务完成的界面

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值