课程原地址:http://hbust.shiyanbar.com/course/91079
上课老师:李歆
实验时间:20180607
地点:云桌面
实验人:郭畅
实验目的
1) 学会hadoop伪分布式配置
2) 理解伪分布式配置的配置文件
实验原理
Hadoop伪分布式配置是在没有多台计算机节点的情况下,对hadoop的分布式存储和计算进行模拟安装和配置。通过在一台计算机节点上解压hadoop安装压缩包后,然后进行hadoop相关文件进行配置,让hadoop的核心进程都运行在同一台机器上并实现对数据存储和计算的测试支持。此时的配置环境并没有达到真实的分布式存储和分布式计算。
实验环境
本次环境是:centos6.5 + jdk1.7.0_79
实验步骤
一 解压/usr/hadoop/hadoop-2.4.1.tar.gz压缩包
1.1 在linux系统下,首先执行`cd /` 命令进入linux根目录,然后在该目录下执行命令:`mkdir simple`创建一个目录文件simple,如果已经存在simple目录不需要再创建。如图1所示:
图1
1.2 创建simple目录之后,在linux根目录下通过`ls`命令进行验证是否创建成功。
如图2所示:
图2
1.3 在simple目录下执行解压命令。如图3所示:
图3
二 配置hadoop文件
2.1 切换到/simple/hadoop-2.4.1/etc/hadoop目录下并查看。如图4所示
图4
2.2 在/simple/hadoop-2.4.1/etc/hadoop目录下执行命令:`vi hadoop-env.sh`,按`i`键之后进入编辑状态,在文件中添加如下内容: export JAVA_HOME=/simple/jdk1.7.0_79。如图5所示
图5
2.3 在/simple/hadoop-2.4.1/etc/hadoop目录下执行`vi core-site.xml`并修改配置文件core-site.xml的 内容如下(实际修改不需要写中文注释)在`<configuration>`标签中添加。
```java
<!--指定fs的缺省名称-->`
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.1.2:9000</value>
</property>
<!--指定HDFS的(NameNode)的缺省路径地址 :simple02是计算机名,也可以是ip地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.1.2:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/simple/hadoop-2.4.1/tmp</value>
</property>
```
2.4 在/simple/hadoop-2.4.1/etc/hadoop目录下执行`vi hdfs-site.xml`并修改配置文件hdfs-site.xml
```java
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/simple/hadoop-2.4.1/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/simple/hadoop-2.4.1/hdfs/data</value>
</property>
```
2.5 在/simple/hadoop-2.4.1/etc/hadoop目录下查看是否有配置文件mapred-site.xml。目录下默认情况下没有该文件,可通过执行如下命令:`mv mapred-site.xml.template mapred-site.xml`修改一个文件的命名,然后执行编辑文件命令:`vi mapred-site.xml`并修改该文件内容
```java
<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
```
2.6 在/simple/hadoop-2.4.1/etc/hadoop目录下执行`vi yarn-site.xml`并修改配置文件内容如下
```java
<!-- 指定YARN的老大(ResourceManager)的地址 -->`
<property>
<name>yarn.resourcemanager.hostname</name>
<value>192.168.1.2</value>
</property>
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
```
2.7执行`vi /etc/profile`。把hadoop的安装目录配置到环境变量中。如图7所示
然后让配置文件生效:`source /etc/profile`。如图7所示
图6
图7
2.8 格式化namenode。在任意目录下执行如下命令进行格式化:`hdfs namenode -format` 或者 `hadoop namenode -format` 。 如图8所示
图8
2.9 启动hadoop, 首先启动hdfs:`start-dfs.sh` 。如图9所示
图9
启动yarn:`start-yarn.sh`。如图10所示
图10
启动之后,在任意目录下执行`jps`命令验证进程是否正常启动(查看服务启动共有6项,如果缺少请执行stop-all.sh关闭,重新启动)。如图11所示
图11
2.10 测试hdfs和yarn(推荐火狐浏览器),首先在浏览器地址栏中输入:`http://192.168.1.2:50070 `(HDFS管理界面)(本IP为自己虚拟机上面的IP,端口不变)。如图12所示
图12
在浏览器的地址栏中输入:`http://192.168.1.2:8088 `(MR管理界面)(本IP为自己虚拟机上面的IP,端口不变)。如图13所示
图13