3台机器配置hadoop集群_Hadoop学习之路(三)Hadoop集群搭建和简单应用

概念了解

主从结构:在一个集群中,会有部分节点充当主服务器的角色,其他服务器都是从服务器的角色,当前这种架构模式叫做主从结构。

主从结构分类:

1、一主多从

2、多主多从

Hadoop中的HDFS和YARN都是主从结构,主从结构中的主节点和从节点有多重概念方式:

1、主节点  从节点

2、master  slave

3、管理者  工作者

4、leader  follower

Hadoop集群中各个角色的名称:

服务主节点从节点
HDFSNameNodeDataNode
YARNResourceManagerNodeManager

集群服务器规划

使用4台CentOS-6.7虚拟机进行集群搭建

951afb26c9a476ea95479c3bfaedfc35.png

软件安装步骤概述

1、获取安装包

2、解压缩和安装

3、修改配置文件

4、初始化,配置环境变量,启动,验证

Hadoop安装

1、规划

规划安装用户:hadoop

规划安装目录:/home/hadoop/apps

规划数据目录:/home/hadoop/data

注:apps和data文件夹需要自己单独创建

2、上传解压缩

注:使用hadoop用户

[hadoop@hadoop1 apps]$ ls
hadoop-2.7.5-centos-6.7.tar.gz
[hadoop@hadoop1 apps]$ tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz

3、修改配置文件

配置文件目录:/home/hadoop/apps/hadoop-2.7.5/etc/hadoop

589a586dbbd9e670cd579aa9e4b0bc4d.png

A. hadoop-env.sh
[hadoop@hadoop1 hadoop]$ vi hadoop-env.sh

修改JAVA_HOME

export JAVA_HOME=/usr/local/jdk1.8.0_73

2b346b7e1ff31841fc6785e820dbb629.png

B. core-site.xml

[hadoop@hadoop1 hadoop]$ vi core-site.xml

fs.defaultFS : 这个属性用来指定namenode的hdfs协议的文件系统通信地址,可以指定一个主机+端口,也可以指定为一个namenode服务(这个服务内部可以有多台namenode实现ha的namenode服务

hadoop.tmp.dir : hadoop集群在工作的时候存储的一些临时文件的目录

a30b3ad3ce02f3d15eb8c10267ca4694.png

fs.defaultFShdfs://hadoop1:9000hadoop.tmp.dir/home/hadoop/data/hadoopdata

a30b3ad3ce02f3d15eb8c10267ca4694.png

 4c351ac19693262cd61b697369813933.png

C. hdfs-site.xml

[hadoop@hadoop1 hadoop]$ vi hdfs-site.xml

 dfs.namenode.name.dir:namenode数据的存放地点。也就是namenode元数据存放的地方,记录了hdfs系统中文件的元数据。

 dfs.datanode.data.dir:datanode数据的存放地点。也就是block块存放的目录了。

dfs.replication:hdfs的副本数设置。也就是上传一个文件,其分割为block块后,每个block的冗余副本个数,默认配置是3。

dfs.secondary.http.address:secondarynamenode 运行节点的信息,和 namenode 不同节点

a30b3ad3ce02f3d15eb8c10267ca4694.png

dfs.namenode.name.dir/home/hadoop/data/hadoopdata/name为了保证元数据的安全一般配置多个不同目录dfs.datanode.data.dir/home/hadoop/data/hadoopdata/datadatanode 的数据存储目录dfs.replication2HDFS 的数据块的副本存储个数, 默认是3dfs.secondary.http.addresshadoop3:50090secondarynamenode 运行节点的信息,和 namenode 不同节点

a30b3ad3ce02f3d15eb8c10267ca4694.png

64071e798a4b001b55fb96db28e55eae.png

D. mapred-site.xml

[hadoop@hadoop1 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[hadoop@hadoop1 hadoop]$ vi mapred-site.xml

 mapreduce.framework.name:指定mr框架为yarn方式,Hadoop二代MP也基于资源管理系统Yarn来运行 。

a30b3ad3ce02f3d15eb8c10267ca4694.png

mapreduce.framework.nameyarn

a30b3ad3ce02f3d15eb8c10267ca4694.png

b31fd4a46bfbbf328c02a9a182296cce.png

E. yarn-site.xml

[hadoop@hadoop1 hadoop]$ vi yarn-site.xml

 yarn.resourcemanager.hostname:yarn总管理器的IPC通讯地址

 yarn.nodemanager.aux-services:

a30b3ad3ce02f3d15eb8c10267ca4694.png

yarn.resourcemanager.hostnamehadoop4yarn.nodemanager.aux-servicesmapreduce_shuffleYARN 集群为 MapReduce 程序提供的 shuffle 服务

a30b3ad3ce02f3d15eb8c10267ca4694.png

 adefc1692ea94d46638e777aa860b62d.png

F. slaves

[hadoop@hadoop1 hadoop]$ vi slaves
hadoop1
hadoop2
hadoop3
hadoop4

be082c584f6994fa8362ec41613d8e8a.png

4、把安装包分别分发给其他的节点

重点强调:每台服务器中的hadoop安装包的目录必须一致, 安装包的配置信息还必须保持一致
重点强调:每台服务器中的hadoop安装包的目录必须一致, 安装包的配置信息还必须保持一致
重点强调:每台服务器中的hadoop安装包的目录必须一致, 安装包的配置信息还必须保持一致

[hadoop@hadoop1 hadoop]$ scp -r ~/apps/hadoop-2.7.5/ hadoop2:~/apps/
[hadoop@hadoop1 hadoop]$ scp -r ~/apps/hadoop-2.7.5/ hadoop3:~/apps/
[hadoop@hadoop1 hadoop]$ scp -r ~/apps/hadoop-2.7.5/ hadoop4:~/apps/

注意:上面的命令等同于下面的命令

[hadoop@hadoop1 hadoop]$ scp -r ~/apps/hadoop-2.7.5/ hadoop@hadoop2:~/apps/

5、配置Hadoop环境变量

千万注意:

1、如果你使用root用户进行安装。vi /etc/profile 即可 系统变量

2、如果你使用普通用户进行安装。vi ~/.bashrc 用户变量

[hadoop@hadoop1 ~]$ vi .bashrc
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

e437528b0b7adeb677441da9abb47eb3.png

使环境变量生效

[hadoop@hadoop1 bin]$ source ~/.bashrc

6、查看hadoop版本

a30b3ad3ce02f3d15eb8c10267ca4694.png

[hadoop@hadoop1 bin]$ hadoop version
Hadoop 2.7.5
Subversion Unknown -r Unknown
Compiled by root on 2017-12-24T05:30Z
Compiled with protoc 2.5.0
From source with checksum 9f118f95f47043332d51891e37f736e9
This command was run using /home/hadoop/apps/hadoop-2.7.5/share/hadoop/common/hadoop-common-2.7.5.jar
[hadoop@hadoop1 bin]$

a30b3ad3ce02f3d15eb8c10267ca4694.png

3b196438c2b7cb026a3836e914d93540.png

7、Hadoop初始化

注意:HDFS初始化只能在主节点上进行

[hadoop@hadoop1 ~]$ hadoop namenode -format

f10282679d703addb015090e3468056b.png View Code

58c0f1ef552f3631139a28ce079d1e0b.png

8、启动

A. 启动HDFS

注意:不管在集群中的那个节点都可以

a30b3ad3ce02f3d15eb8c10267ca4694.png

[hadoop@hadoop1 ~]$ start-dfs.sh
Starting namenodes on [hadoop1]
hadoop1: starting namenode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-namenode-hadoop1.out
hadoop3: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop3.out
hadoop2: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop2.out
hadoop4: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop4.out
hadoop1: starting datanode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-datanode-hadoop1.out
Starting secondary namenodes [hadoop3]
hadoop3: starting secondarynamenode, logging to /home/hadoop/apps/hadoop-2.7.5/logs/hadoop-hadoop-secondarynamenode-hadoop3.out
[hadoop@hadoop1 ~]$

a30b3ad3ce02f3d15eb8c10267ca4694.png

92d1ba9cebcd5c309cc4e635c8f0677b.png

B. 启动YARN

注意:只能在主节点中进行启动

a30b3ad3ce02f3d15eb8c10267ca4694.png

[hadoop@hadoop4 ~]$ start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/apps/hadoop-2.7.5/logs/yarn-hadoop-resourcemanager-hadoop4.out
hadoop2: starting nodemanager, logging to /home/hadoop/apps/hadoop-2.7.5/logs/yarn-hadoop-nodemanager-hadoop2.out
hadoop3: starting nodemanager, logging to /home/hadoop/apps/hadoop-2.7.5/logs/yarn-hadoop-nodemanager-hadoop3.out
hadoop4: starting nodemanager, logging to /home/hadoop/apps/hadoop-2.7.5/logs/yarn-hadoop-nodemanager-hadoop4.out
hadoop1: starting nodemanager, logging to /home/hadoop/apps/hadoop-2.7.5/logs/yarn-hadoop-nodemanager-hadoop1.out
[hadoop@hadoop4 ~]$

a30b3ad3ce02f3d15eb8c10267ca4694.png

0a3980cb77d893d6e20f1055ae1e32e0.png

9、查看4台服务器的进程

hadoop1

181211615508a9275acbfca509104b05.png

hadoop2

7fae49475f63c1cd40cd917705946cf7.png

hadoop3

075bb534a914a64dabcc787bc0239dc2.png

hadoop4

066ec919d905979dc527d37f6eca8dac.png

10、启动HDFS和YARN的web管理界面

HDFS : http://192.168.123.102:50070
YARN :http://hadoop05:8088

疑惑:fs.defaultFS = hdfs://hadoop02:9000

解答:客户单访问HDFS集群所使用的URL地址

同时,HDFS提供了一个web管理界面 端口:50070

HDFS界面

0a9181c079a032b1bc96cc73f0b23c65.png

点击Datanodes可以查看四个节点

312ffb21b13f664dbdac415a21e6d681.png

YARN界面

5011902712370b3a8fe26eb9d397b127.png

点击Nodes可以查看节点

94bbbd2c7209c3a0927da066f6f469c0.png

Hadoop的简单使用

创建文件夹

在HDFS上创建一个文件夹/test/input

[hadoop@hadoop1 ~]$ hadoop fs -mkdir -p /test/input

查看创建的文件夹

a30b3ad3ce02f3d15eb8c10267ca4694.png

[hadoop@hadoop1 ~]$ hadoop fs -ls /
Found 1 items
drwxr-xr-x - hadoop supergroup 0 2018-03-03 11:33 /test
[hadoop@hadoop1 ~]$ hadoop fs -ls /test
Found 1 items
drwxr-xr-x - hadoop supergroup 0 2018-03-03 11:33 /test/input
[hadoop@hadoop1 ~]$

a30b3ad3ce02f3d15eb8c10267ca4694.png

07a5d4284dc65c3e1396efcb62691a9f.png

上传文件

创建一个文件words.txt

[hadoop@hadoop1 ~]$ vi words.txt
hello zhangsan
hello lisi
hello wangwu

上传到HDFS的/test/input文件夹中

[hadoop@hadoop1 ~]$ hadoop fs -put ~/words.txt /test/input

 查看是否上传成功

[hadoop@hadoop1 ~]$ hadoop fs -ls /test/input
Found 1 items-rw-r--r-- 2 hadoop supergroup 39 2018-03-03 11:37 /test/input/words.txt
[hadoop@hadoop1 ~]$

836fa0037faabfe2cea5da77d8c48ea9.png

下载文件

将刚刚上传的文件下载到~/data文件夹中

[hadoop@hadoop1 ~]$ hadoop fs -get /test/input/words.txt ~/data

查看是否下载成功

[hadoop@hadoop1 ~]$ ls data
hadoopdata words.txt
[hadoop@hadoop1 ~]$

3f44fc1274a154c0c66ceef0c2ddb950.png

运行一个mapreduce的例子程序:wordcount

[hadoop@hadoop1 ~]$ hadoop jar ~/apps/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /test/input /test/output

f08879f8a0f11ae247d3a4d87cdcb0c2.png

在YARN Web界面查看

fe881f39962591ee4cdc867d4ca60f39.png

查看结果

a30b3ad3ce02f3d15eb8c10267ca4694.png

[hadoop@hadoop1 ~]$ hadoop fs -ls /test/output
Found 2 items-rw-r--r-- 2 hadoop supergroup 0 2018-03-03 11:42 /test/output/_SUCCESS-rw-r--r-- 2 hadoop supergroup 35 2018-03-03 11:42 /test/output/part-r-00000
[hadoop@hadoop1 ~]$ hadoop fs -cat /test/output/part-r-00000
hello 3
lisi 1
wangwu 1
zhangsan 1
[hadoop@hadoop1 ~]$

a30b3ad3ce02f3d15eb8c10267ca4694.png

cd2027b4f7a1233890bacf97d8c7fd9e.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值