1.Hadoop集群伪分布式搭建
1、准备工作
-
配置好虚拟机IP,
-
关闭防火墙,
-
安装好jdk,配置环境变量
1.上传JDK
2.解压到对应目录 tar -zxvf jdk1.8 -C /对应目录
3.配置环境变量 vi /etc/profile
export JAVA_HOME=/opt/software/jdk1.8
export PATH=$PATH.:JAVA_HOME/bin:
4.刷新配置文件 source /etc/profile
5.jdk环境配置成功 java Java -version 出现版本号
-
上传Hadoop压缩文件
-
解压到对应目录(我的Hadoop安装在opt下的software的,个人随意)
-
免密登陆(登录shell,非必须)
ssh登录本地 记住要退出
ssh-keygen -t rsa 四次回车
进入.ssh 目录
ssh-copy-id localhost(免密的机器)
2.修改配置文件
-
先跳转到
cd /opt/software/hadoop-2.7.1/etc/hadoop
-
修改 hadoop-env.sh
vi hadoop-env.sh
添加 hadoop使用jdk环境(大约大26行的位置)
export JAVA_HOME=/opt/software/jdk1.8.0_172 -
配置 vi core-site.xml (注意xml配置修改都是在<configuration>标签内,下同)
修改 namenode
箭头部分是自己虚拟机ip,因为我自己做了ip映射,所以不用完整ip地址也可以识别<configuration>
<property><name>fs.defaultFS</name>
<value>hdfs://node01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/software/hadoop-2.7.1/data</value>
</property>
</configuration>
-
设置一个零时文件夹存放目录data,创建目录
创建目录
mkdir /opt/software/hadoop-2.7.1/data
-
配置 vi hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
ps: 若是集群副本数量是3
有多少台datanode 设置对应数量的副本
若是这样设置会出现大量,一般副本数量为3
需要指定secondaryNameNode的端口
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node01:50090</value>
</property>
-
配置 vi mapred-site.xml
因为是模板文件不能执行 需要修改名字,默认只有mapred-site.xml.template 去掉后边就是mapred-site.xml
再进行配置即可mv ./mapred-site.xml.template ./mapred-site.xml
执行mr运行在yarn上
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
-
配置 vi yarn-site.xml
需要执行yarn的执行老大 ResourceManager
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node01</value>
</property>
reduce获取数据的方式
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
-
将hadoop配置为全局变量
vi /etc/profile 编辑
export JAVA_HOME=/opt/software/jdk1.8
export PATH=$PATH.:JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:
export HADOOP_HOME=/opt/software/hadoop-2.7.1source /etc/profile 刷新
-
以下操作只在第一次启动HDFS时执行格式化
执行命令 hadoop namenode -format
出现很多字之后若配置没问题就会成功,如果配置出错会提示哪个配置文件有问题
出现successfuly formatted
格式化成功 -
启动hdfs start-dfs.sh //停止 stop-dfs.sh 启动后执行jps,出现下图
-
启动成功验证 http://虚拟机IP:50070 出现web界面即ok
-
yarn启动 start-yarn.sh 停止 stop-yarn.sh http://虚拟机IP:8088 出现web界面ok
-
start-all.sh 同时开启 stop-all.sh 同时关闭