实验环境
已经部署好的 Hadoop 单机模式环境
实验步骤
一、配置无密登录
$ ssh-keygen -t rsa -P ’’ -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
二、修改配置文件
1、切换到/usr/local/hadoop-2.7.3/etc/hadoop/目录,需要修改如下配置
(1)etc/hadoop/core-site.xml:
<configuration>
<!--指定namenode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<!--用来指定使用hadoop时产生文件的存放目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.7.3/</value>
</property>
</configuration>
$ sudo vim core-site.xml
(2)etc/hadoop/hdfs-site.xml:
<configuration>
<!--指定hdfs保存数据的副本数量-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
$ sudo vim hdfs-site.xml
(3)etc/hadoop/mapred-site.xml:
<configuration>
<!--告诉hadoop以后MR(Map/Reduce)运行在YARN上-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
$ sudo cp mapred-site.xml.template mapred-site.xml
$ sudo vim mapred-site.xml
(4)etc/hadoop/yarn-site.xml:
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
$ sudo vim yarn-site.xml
三、启动hadoop,并执行demo
1、格式化namenode。
格式化的过程是创建初始目录和文件系统结构的过程。格式化只需进行一次,
下次启动不再需要格式化。执行以下命令:
$ hdfs namenode -format
2、启动 HDFS
$ start-dfs.sh
用$ jps命令验证,正确启动会出现以下三个进程:
$ jps
NameNode
DataNode
SecondaryNameNode
3、启动 yarn
$ start-yarn.sh
用$ jps命令验证,正确启动将多出以下两个进程:
$ jps
ResourceManager
NodeManager
4、在 HDFS 上创建文件夹
$ hdfs dfs -mkdir /user
$ hdfs dfs -mkdir /user/zhangsan
建立完成可通过hdfs dfs -lsr 查看建立好的文件夹。
5、把/etc/hadoop目录上传到HDFS,保存到input目录,先建立用户目录hadoop
$ hdfs dfs -mkdir /user/hadoop
$ hdfs dfs -put etc/hadoop input
通过 hdfs dfs -ls 查看上传后新建立的 input 目录。
$ hdfs dfs -ls
查看 input 目录里的文件。
6、执行 demo 代码
$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce?examples-2.7.3.jar grep input output ’dfs[a-z.]+’
7、查看程序结果
$ hdfs dfs -ls
查看具体内容:
$ hdfs dfs -cat output/*
8、把在 HDFS 上的程序执行结果下载到本地 ,并查看。
$ hdfs dfs -get output output
查看具体内容。
$ cat output/par*
四、通过web查看hadoop。
1、 浏览器访问Hadoop文件系统
浏览器访问Hadoop文件系统默认端口号为50070,打开Ubuntu自带的火狐浏览
器,输入以下网址获得Hadoop Web UI的服务,可以查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。网址为:http://localhost:50070
2、 浏览器查看集群所有应用程序
访问集群中的所有应用程序的默认端口号为8088。使用以下URL访问该服务。网
址为:http://localhost:8088
五、停止所有进程
分别关闭HDFS和YARN
$ stop-dfs.sh
$ stop-yarn.sh
或者使用以下命令停止所有进程:
$ stop-all.sh
用命令jps查看:关闭了Hadoop所有进程
$ jps
Jps
至此Hadoop伪分布式搭建完成。