Hadoop_04_stanAlone

最新推荐文章于 2024-07-06 11:05:00 发布

菜小雨

最新推荐文章于 2024-07-06 11:05:00 发布

阅读量194

点赞数

文章标签： hadoop hdfs 分布式

本文链接：https://blog.csdn.net/Latterain/article/details/106230455

版权

文章目录

Hadoop

Hadoop

hadoop的发展历史：
最初起源于nutch的项目，是一个爬虫项目，Doug cutting写的抓取回来的数据量太大，遇到两个问题：
第一个问题：如何存储第二个问题：如何检索

如何检索：lucene
如何存储：
谷歌发了三篇论文关于解决存储的思想：
GFS: 分布式文件系统，可用于处理海量网页的存储
Bigdata;
mapreduce：分布式计算框架，可用于处理海量网页的索引计算问题

Hadoop :
HDFS （hadoop distributed file system）
mapreduce（分布式文件计算系统）

Hbase （非关系型的数据库）

Hadoop生态圈：
在这里插入图片描述
Hadoop历史版本
0.x系列版本：hadoop当中最早的一个开源版本，在此基础上演变而来的1.x以及2.x的版本
1.x版本系列：hadoop版本当中的第二代开源版本，主要修复0.x版本的一些bug等
2.x版本系列：架构产生重大变化，引入了yarn平台等许多新特性

hadoop三大公司发型版本介绍
免费开源版本apache：apache版本
免费开源版本hortonWorks：hortonworks
软件收费版本ClouderaManager:cloudera

Hadoop 的架构模型

1.x的版本架构模型

文件系统核心模块：典型的主从架构，没有主备的概念
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据
secondaryNameNode：主要是辅助namenode管理元数据信息的
DataNode：集群当中的从节点，主要用于存储数据

数据计算核心模块：mapReduce分布式文件计算系统
JobTracker：主节点，接收用户请求，分配任务给taskTracker去执行
TaskTracker：从节点，主要用于接收jobTracker分配的任务
在这里插入图片描述

2.x的版本架构模型介绍

1.NameNode与ResourceManager单节点架构模型

文件系统核心模块：hdfs文件系统
NameNode：集群当中的主节点，主要用于维护元数据信息，以及处理用户的请求
secondaryNameNode：主主要是辅助namenode管理元数据信息的
DataNode：集群当中的从节点，主要用于存储数据

数据计算核心模块：yarn资源调度系统
ResourceManager：
yarn资源调度系统的主节点，接收用户请求，分配资源（分配CPU ，分配内存等等）
NodeManager：
从节点，主要用于处理计算任务

在这里插入图片描述

2.NameNode单节点与ResourceManager高可用架构模型

数据计算核心模块：
ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分，通过zookeeper实现ResourceManager的高可用
NodeManager：负责执行主节点ResourceManager分配的任务
在这里插入图片描述

3.NameNode高可用与ResourceManager单节点架构模型

文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，其中nameNode可以有两个，形成高可用状态
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据
JournalNode：文件系统元数据信息管理

数据计算核心模块：
ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分
NodeManager：负责执行主节点ResourceManager分配的任务
在这里插入图片描述

namenode高可用：

namenode active状态：处于活跃的主节点，处理用户请求，维护元数据信息
namenode stand 状态：处于备份的节点，活跃的主节点死了之后，备份的节点，马上切换为活跃的主节点，对外提供服务
如果namenode高可用，那么一定要保证namenode的元数据信息同步一致，如果不一致，就会出现脑裂的问题
journalNode：为了解决元数据共享的问题，引入journalNode的机制，专门用于同步元数据信息
zkfc：zkFailoverController
amenode的守护进程，主要用于监听namenode什么时候死掉，死掉了之后，马上通知另外一个namenode切换为主节点

4.NameNode与ResourceManager高可用架构模型

文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，一般都是使用两个，实现HA高可用
JournalNode：元数据信息管理进程，一般都是奇数个
DataNode：从节点，用于数据的存储

数据计算核心模块：
ResourceManager：Yarn平台的主节点，主要用于接收各种任务，通过两个，构建成高可用
NodeManager：Yarn平台的从节点，主要用于处理ResourceManager分配的任务
在这里插入图片描述
namenode与resourceManager的高可用
hadoop 2.0版本引入namenode高可用机制
resourcemanager 2.4.0版本引用高可用机制

apache版本的hadoop三种运行环境的介绍

stanAlone环境：单机版的hadoop运行环境
伪分布式环境：主节点都在一台机器上面，从节点分开到其他机器上面借助三台机器来实现
namenode resourceManager
完全分布式环境：主节点全部都分散到不同的机器 namenode active 占用一台机器 namenodestandBy占用一台机器 resourceManger active 占用一台机器 resourceManagerstandby占用一台机器

stanAlone环境搭建

运行服务	服务器IP
NameNode	192.168.190.3
SecondaryNameNode	192.168.190.3
DataNode	192.168.190.3
ResourceManager	192.168.190.3
NodeManager	192.168.190.3
jobhistory	192.168.190.3

下载连接：apache hadoop 2.7.5

解压到sever文件夹
cd /export/softwares
tar -zxvf hadoop-2.7.5.tar.gz -C …/servers/
文件配置：
core-site.xml：核心配置文件，主要定义了我们的集群是分布式，还是本机运行
hdfs-site.xml：分布式文件系统的核心配置决定了我们数据存放在哪个路径，数据的副本，数据的block块大小等等
linux的磁盘空间的查看 df -lh
hadoop-env.sh 配置我们jdk的home路径
mapred-site.xml 定义了我们关于mapreduce运行的一些参数
yarn-site.xml 定义我们的yarn集群
slaves 定义了我们的从节点是哪些机器 datanode nodemanager运行在哪些机器上
生成相关文件夹：
cd /export/servers/hadoop-2.7.5
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/tempDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/nn/edits
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/snn/name
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits
启动集群：
首次启动 HDFS 时，必须对其进行格式化操作。
cd /export/servers/hadoop-2.7.5/
bin/hdfs namenode -format
启动：
sbin/start-dfs.sh
sbin/start-yarn.sh
sbin/mr-jobhistory-daemon.sh start historyserver
网页查看端口
50070默认看hdfs集群
8088默认看yarn集群
19888默认查看历史任务完成的界面

菜小雨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop_04_stanAlone

文章目录HadoopHadoop 的架构模型1.x的版本架构模型2.x的版本架构模型介绍1.NameNode与ResourceManager单节点架构模型2.NameNode单节点与ResourceManager高可用架构模型3.NameNode高可用与ResourceManager单节点架构模型4.NameNode与ResourceManager高可用架构模型apache版本的hadoop三种运行环境的介绍stanAlone环境搭建Hadoophadoop的发展历史：最初起源于nutch的项目，是一
复制链接

扫一扫