Linux下搭建Hadoop分布式教程

1、首先在Linux中安装jdk与Hadoop,解压及安装成功后配置环境变量。

vi /etc/profile 

打开文件后,将下面这段代码复制进去

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
 

一段是jdk的环境变量,还有一段是Hadoop的环境变量。

配置好后,可以通过javac与java -version命令去检查jdk的环境变量是否配置成功。

Hadoop可以通过 输入start -d  当使用tab补全的时候 出现  start-dfs.sh即配置成功。

检查防火墙是否关闭:systemctl status firewalld 

进入到 /opt/module/hadoop-2.7.3/etc/hadoop目录中,里面有很多配置文件,这里需要配置的文件有四个

(1)core-site.xml 

        <!-- 指定HDFS中NameNode的地址 -->
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://bigdata1:9000</value>
        </property>
        <!-- 指定Hadoop运行时产生文件的存储目录-->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/module/hadoop-2.7.3/data</value>
        </property>

将文件复制进配置文件中的如下位置,bigdata1为主机名称 。

(2)hdfs-site.xml

       <!--数据冗余(备份)数-->
        <property>
                <name>dfs.replication</name>
                <value>3</value>
        </property>

        <!--secondary的NameNode的地址,端口号为50090-->
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>bigdata1:50090</value>
        </property>

        <!-- 关闭权限-->
        <property>
                <name>dfs.permissions</name>
                <value>false</value>
        </property>
 

(3)yarn-site.xml

        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>

        <!-- 指定YARN的ResourceManager的地址 -->
        <property>
                 <name>yarn.resourcemanager.hostname </name>
                 <value>bigdata1</value>
         </property>

         <!-- 日志聚集功能 -->
         <property>
                 <name>yarn.log-aggregation-enable </name>
                 <value>true</value>
         </property>

         <!-- 日志保留时间 设置7天(秒) -->
         <property>
                  <name>yarn.log-aggregation.retain-seconds </name>
                  <value>604800</value>
         </property>

(4) mapred-site.xml

首先 cp mapred-site.xml.template mapred-site.xml   

因为文件夹中只有mapred-site.xml.template 这个文件 所以要把这个文件改名为 mapred-site.xml 

        <!-- 指定MR运行在YARN上 -->
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>

        <!-- 历史服务器的地址 -->
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>bigdata1:10020</value>
        </property>

        <!-- 历史服务器页面的地址 -->
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>bigdata1:19888</value>
        </property>

上面几步完成后需要将jdk的环境变量(export JAVA_HOME=/opt/module/jdk1.8.0_231)

复制出来加入到下面几个文件中,都是直接放在文件的最后一行

hadoop-env.sh

yarn-env.sh

mapred-env.sh

最后一步,打开 slaves 这个文件,将里面的localhost改为你的主机的名称。

 

之后对所配置的文件进行格式化   hdfs namenode -format

格式化之后进行启动   start-all.sh  

此时当他要你输入密码的时候就将你的密码输入进去,

当启动成功之后,在浏览器里面输入你的 主机IP:50070 查看是否可以访问成功

 

当出现如下页面的时候即已成功,到此伪分布式算是搭建成功。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
搭建Hadoop分布式环境需要以下步骤: 1. 安装Java环境 Hadoop需要Java环境支持,因此需要先安装Java。可以通过以下命令安装: sudo apt-get update sudo apt-get install default-jdk 2. 下载Hadoop 可以从官网下载Hadoop,也可以使用以下命令下载: wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.3./hadoop-3.3..tar.gz 3. 解压Hadoop 使用以下命令解压Hadoop: tar -xzvf hadoop-3.3..tar.gz 4. 配置Hadoop 进入Hadoop目录,编辑hadoop-env.sh文件,设置JAVA_HOME: cd hadoop-3.3. vi etc/hadoop/hadoop-env.sh 添加以下内容: export JAVA_HOME=/usr/lib/jvm/default-java 进入etc/hadoop目录,编辑core-site.xml文件,添加以下内容: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:900</value> </property> </configuration> 编辑hdfs-site.xml文件,添加以下内容: <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop/hadoopdata/hdfs/datanode</value> </property> </configuration> 编辑mapred-site.xml文件,添加以下内容: <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 编辑yarn-site.xml文件,添加以下内容: <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> 5. 格式化HDFS 使用以下命令格式化HDFS: bin/hdfs namenode -format 6. 启动Hadoop 使用以下命令启动Hadoop: sbin/start-all.sh 7. 验证Hadoop 使用以下命令验证Hadoop是否正常运行: jps 如果看到以下进程,则说明Hadoop已经成功启动: NameNode SecondaryNameNode DataNode ResourceManager NodeManager 以上就是搭建Hadoop分布式环境的步骤。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值