Hadoop伪分布式搭建

最新推荐文章于 2024-06-27 21:14:06 发布

基础不牢，地动山摇

最新推荐文章于 2024-06-27 21:14:06 发布

阅读量161

点赞数

分类专栏： Hadoop

Hadoop 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

实验环境

已经部署好的 Hadoop 单机模式环境

实验步骤

一、配置无密登录

$ ssh-keygen -t rsa -P ’’ -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

生成密钥

二、修改配置文件

1、切换到/usr/local/hadoop-2.7.3/etc/hadoop/目录，需要修改如下配置
（1）etc/hadoop/core-site.xml:

<configuration>
		<!--指定namenode的地址-->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://localhost:9000</value>
        </property>
        <!--用来指定使用hadoop时产生文件的存放目录-->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/local/hadoop-2.7.3/</value>
        </property>
</configuration>

$ sudo vim core-site.xml

（2）etc/hadoop/hdfs-site.xml:

<configuration>
		<!--指定hdfs保存数据的副本数量-->
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
</configuration>

$ sudo vim hdfs-site.xml

（3）etc/hadoop/mapred-site.xml:

<configuration>
		<!--告诉hadoop以后MR(Map/Reduce)运行在YARN上-->
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

$ sudo cp mapred-site.xml.template mapred-site.xml
$ sudo vim mapred-site.xml

（4）etc/hadoop/yarn-site.xml:

<configuration>
<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

$ sudo vim yarn-site.xml

三、启动hadoop，并执行demo

1、格式化namenode。

格式化的过程是创建初始目录和文件系统结构的过程。格式化只需进行一次，
下次启动不再需要格式化。执行以下命令：

$ hdfs namenode -format

2、启动 HDFS

$ start-dfs.sh

用$ jps命令验证，正确启动会出现以下三个进程：

$ jps

NameNode
DataNode
SecondaryNameNode

3、启动 yarn

$ start-yarn.sh

用$ jps命令验证，正确启动将多出以下两个进程：

$ jps

ResourceManager
NodeManager

4、在 HDFS 上创建文件夹

$ hdfs dfs -mkdir /user
$ hdfs dfs -mkdir /user/zhangsan

建立完成可通过hdfs dfs -lsr 查看建立好的文件夹。

5、把/etc/hadoop目录上传到HDFS，保存到input目录，先建立用户目录hadoop

$ hdfs dfs -mkdir /user/hadoop
$ hdfs dfs -put etc/hadoop input

通过 hdfs dfs -ls 查看上传后新建立的 input 目录。

$ hdfs dfs -ls

查看 input 目录里的文件。

6、执行 demo 代码

$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce?examples-2.7.3.jar grep input output ’dfs[a-z.]+’

7、查看程序结果

$ hdfs dfs -ls

查看具体内容：

$ hdfs dfs -cat output/*

8、把在 HDFS 上的程序执行结果下载到本地，并查看。

$ hdfs dfs -get output output

查看具体内容。

$ cat output/par*

四、通过web查看hadoop。

1、浏览器访问Hadoop文件系统
浏览器访问Hadoop文件系统默认端口号为50070，打开Ubuntu自带的火狐浏览
器，输入以下网址获得Hadoop Web UI的服务，可以查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。网址为：http://localhost:50070

2、浏览器查看集群所有应用程序
访问集群中的所有应用程序的默认端口号为8088。使用以下URL访问该服务。网
址为：http://localhost:8088

五、停止所有进程
分别关闭HDFS和YARN