本文章介绍如何搭建伪分布式集群,以便使用MapReduce,HDFS快速执行简单操作。
搭建环境&版本
- CentOS6
- hadoop-2.6.0-cdh5.15.1.tar.gz
- jdk-8u91-linux-x64.tar.gz
操作流程
- 配置SSH免密登录
- 安装JDK及配置Java环境变量
- 安装Hadoop及配置Hadoop环境变量
- 配置HDFS
4.1. 配置etc/hadoop/core-site.xml
4.2. 配置etc/hadoop/hdfs-site.xml
4.3. 配置slaves文件 - 配置YARN
5.1. 配置etc/hadoop/mapred-site.xml
5.2. 配置etc/hadoop/yarn-site.xml - 启动HDFS,YARN和查看WEB页面
一,配置SSH免密登录
注:本文章使用CentOS账号为:admin
$ ssh-keygen -t rsa #回车三次,生成公钥
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
二,安装JDK及配置Java环境变量
注:本文章将JDK,Hadoop 都安装在~/app/ 目录下
$ tar -zxvf jdk-8u91-linux-x64.tar.gz -C ~/app/ #解压JDK安装包
$ vi ~/.bash_profile
在 .bash_profile文件内容添加一下内容,保存
JAVA_HOME=/home/admin/app/jdk1.8.0_91
PATH=$JAVA_HOME/bin:$PATH
$ srouce ~/.bash_profile #初始化文件
$ java -version #查看JDK版本
三,安装Hadoop及配置Hadoop环境变量
$ tar -zxvf hadoop-2.6.0-cdh5.15.1.tar.gz -C ~/app/ #解压Hadoop包至~/app/目录下
在 .bash_profile文件内容添加以下内容
HADOOP_HOME=/home/admin/app/hadoop-2.6.0-cdh5.15.1
PATH=$HADOOP_HOME/bin:$PATH
$ srouce ~/.bash_profile #初始化文件
$ echo $HADOOP_HOME #查看HADOOP_HOME路径
四,配置HDFS
4.1,配置${HADOOP_HOME}/etc/hadoop/core-site.xml
在core-site.xml文件中添加以下内容
<!--配置Hadoop默认文件系统uri-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop002:8020</value>
</property>
<!--配置Hadoop临时目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/admin/app/tmp</value>
</property>
- hdfs://hadoop002:8020 中,hadoop002映射本机IP:192.168.207.110,可在 /etc/hosts中修改
- /home/admin/app/tmp 中 tmp目录和${HADOOP_HOME}属于同级
4.2,配置${HADOOP_HOME}/etc/hadoop/hdfs-site.xml
在hdfs-site.xml中添加以下内容
<!--设置HDFS副本系数为1-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
4.3,配置slaves文件
注:该文件配置DataNode节点IP
在slaves文件中添加hadoop002
hadoop002
五,配置YARN
5.1,配置mapred-site.xml
$ cp mapred-site.xml.template mapred-site.xml #复制mapred-site.xml.template模板
在mapred-site.xml文件中添加以下内容
<!--配置执行MapReduce作业的运行时框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
5.2,配置etc/hadoop/yarn-site.xml
在yarn-site.xml中添加以下内容
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
六,启动HDFS,YARN和查看WEB页面
$ hdfs namenode -format #格式化HDFS,只需要第一次启动时格式化
$ ./start-dfs.sh #启动HDFS,当前目录为${HADOOP_HOME}/sbin/下
$ ./start-yarn.sh #启动YARN,所在目录同上
$ jps #查看HDFS,YARN是否启动
HDFS,YARN启动成功示例:
$ sudo service iptables stop #关闭防火墙,做好访问WEB页面准备
访问HDFS的WEB页面:http://主机IP:50070 例如:http://192.168.207.110:50070
访问YARN的WEB页面:http://主机IP:8088
访问成功示例:
查看官网文献