hadoop伪分布式环境搭建及其详细讲解

最新推荐文章于 2023-05-28 19:20:32 发布

qq_33361080

最新推荐文章于 2023-05-28 19:20:32 发布

阅读量200

点赞数

分类专栏： hadoop 文章标签：环境搭建

本文链接：https://blog.csdn.net/qq_33361080/article/details/82587112

版权

hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

首先参考一下官网的链接发在这里 http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

我这里的虚拟机版本是VMware16.05 centos6.5 hadoop2.5.0 下载链接：http://archive.apache.org/dist/hadoop/common/

第一步：当然是上传解压

tar -zxvf hadoop-2.5.0.tar.gz

第二步：配置JDK

安装过程比较简单，我到时候再贴个比较好的博客在这里。可以自行百度。

第三步：配置环境

1.配置文件目录

修改env.sh

在mapred-env.sh，yarn-env.sh，hadoop-env.sh

export JAVA_HOME=

将这一句修改为自己的JAVA_HOME，忘记了的话，可以使用echo ${JAVA_HOME}输出

2.修改core-site.xml

1.官网的基本配置项

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

将localhost修改为自己虚拟机的IP，这一步其实就是配置namenode节点在哪台虚拟机上。

2.官网上找到这个core-defalut.xml 在core-xite里面添加下面这些，覆盖原来的配置。

<property>
<name>hadoop.tmp.dir</name>
<value></value>
</property>

<property>
<name>fs.trash.interval</name>
<value>10080</value>
</property>

第一项是修改临时文件的存放位置，第二项是修改删除文件的保留时间，默认是0。

3.修改slaves

加上虚拟机的IP

实际上是配置DataNode节点

4.修改hdfs-site.xml

1.官网基本配置

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

修改hdfs上文件的副本数为1

2.添加覆盖hdfs-default.xml的配置项可以在官网找到这个配置项修改IP即可

<property>
<name>dfs.namenode.secondary.http-address</name>
<value></value>
</property>

这里实际上是配置secondarynamenode的节点在哪台服务器上

第一项：map task到reduce任务之间需要shuffle一下

第二项：resource manager在哪台服务器上

第三项：启用日志聚合功能，日志聚合开启后保存到HDFS上。

第四项：聚合后的日志在HDFS上保存多长时间，单位为s

第二项：MapReduce JobHistory Server地址

第三项：MapReduce JobHistory Server Web UI地址

笔者注：这里删掉了一些Value值可以根据自己的IP和官网端口进行配置

3.配置无密钥登录

1.cd ~

2.先切换到普通用户。然后执行ssh-keygen -t rsa。

3.执行后会在用户目录生产.ssh目录和id_rsa、id_rsa.pub文件。然后执行cd .ssh/

4.cp id_rsa.pub authorized_keys中

4.windows页面访问

1.http://ip:50070 文件系统页面

2.http://ip:8088 任务页面

注：如果不能打开，请百度Ubuntu或者centos关闭防火墙的方式。

5.开启服务

先cd hadoop目录

1.sbin/start-all.sh 一次性全部启动在伪分布式下可以使用单不建议

2.分模块启动

启动namenode DataNode secondarynamenode

sbin/start-dfs.sh

启动resource manager 和node manager

sbin/start-yarn.sh

3.分组件启动

1.sbin/hadoop-daemon.sh start namenode

2.sbin/hadoop-daemon.sh start datanode

3.sbin/yarn-daemon.sh start resourcemanager

4.sbin/yarn-daemon.sh start nodemanager

5.启动mapreduce history 在8088页面点击history可以查看细节

sbin/mr-jobhistory-daemon.sh start historyserver

作者小白，如果错误请及时指出，下次重新搭建时会把所有的截屏也贴上来。