Linux安装Hadoop

最新推荐文章于 2024-09-12 20:58:18 发布

清风丶

最新推荐文章于 2024-09-12 20:58:18 发布

阅读量95

点赞数

文章标签： hadoop linux

本文链接：https://blog.csdn.net/qq_39992399/article/details/94395826

版权

----------------------Hadoop安装(注意 /etc/hosts文件中hostname不能带有下划线)
1.安装jdk(可用yum命令安装,安装之后jdk路径为：/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.212.b04-0.el7_6.x86_64)
2.安装hadoop (压缩包地址 http://mirrors.hust.edu.cn/apache/hadoop/common/stable2/)：
(1)创建hadoop文件夹：cd /srv
(2)解压hadoop压缩包：tar -zxvf hadoop-3.2.0.tar.gz
(3)更名：mv hadoop-3.2.0 hadoop
(4)修改/srv/hadoop/etc/hadoop/hadoop-env.sh文件：
        export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.212.b04-0.el7_6.x86_64

        export HDFS_NAMENODE_USER=root
       export HDFS_DATANODE_USER=root
       export HDFS_SECONDARYNAMENODE_USER=root
       export YARN_NODEMANAGER_USER=root
       export YARN_RESOURCEMANAGER_USER=root
    创建文件储存的文件夹,如下文件夹：
                                /srv/hadoop/tmp/name
                                /srv/hadoop/tmp/hdfs/data
                                /srv/hadoop/tmp/hdfs/name
(5)修改/srv/hadoop/etc/hadoop/core-site.xml文件：
<configuration>

   <property>
   <name>fs.default.name</name>
   <value>hdfs://127.0.0.1:9000</value>
   <description>HDFS的URI，文件系统://namenode标识:端口号</description>
   </property>
   
   <property>
<name>hadoop.tmp.dir</name>
<value>/srv/hadoop/tmp</value>
<description>namenode上本地的hadoop临时文件夹</description>
   </property>
   <property>
<name>dfs.name.dir</name>
<value>/srv/hadoop/tmp/name</value>
<description>name文件夹</description>
   </property>
   <property>
       <name>fs.trash.interval</name>
       <value>1440</value>
       <description>清空回收站后，会把回收站中所有文件移动到检查点的目录下，1440分钟以后，该目录下的所有数据会被删掉</description>
   </property>
</configuration>
(6)修改/srv/hadoop/etc/hadoop/hdfs-site.xml文件：
   <configuration>
   
   <property>
   <name>dfs.replication</name>
   <value>1</value>
       <description>副本个数，配置默认是3,应小于datanode机器数量</description>
   </property>
   <property>
   <name>dfs.namenode.name.dir</name>
   <value>/srv/hadoop/tmp/hdfs/name</value>
       <description>namenode上存储hdfs名字空间元数据 </description>
   </property>
   <property>
   <name>dfs.datanode.data.dir</name>
   <value>/srv/hadoop/tmp/hdfs/data</value>
       <description>datanode上数据块的物理存储位置</description>
   </property>
   <property>
       <name>dfs.permissions</name>
       <value>false</value>
       <description>是否开启HDFS的权限检查，默认true</description>
       </property>
       <property>
   <name>dfs.http.address</name>
   <value>0.0.0.0:50070</value>
   </property>
   </configuration>
(7)修改/srv/hadoop/etc/hadoop/mapred-site.xml文件：
   <configuration>
       
       <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
       </property>
       <property>
       <name>mapred.job.tracker</name>
       <value>127.0.0.1:9001</value>
       </property>
   </configuration>
(8)修改/srv/hadoop/etc/hadoop/yarn-site.xml文件：
<configuration>
   
   <property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
   </property>
                                       <property>
                                       <name>yarn.resourcemanager.hostname</name>
                                       <value>chen</value>
                                       </property>
</configuration>
(9)将hadoop添加到环境变量：vi /etc/profile
添加配置：export HADOOP_HOME=/srv/hadoop
       export PATH=$PATH:$HADOOP_HOME/bin
(10)使配置文件生效：source /etc/profile
                   (11)配置免密登陆(重点:但是可以忽略)：
                      产生一个密钥对：ssh-keygen -t rsa
                      把公钥拷贝给要登录的服务器：ssh-copy-id -i ~/.ssh/id_rsa.pub 111.231.1.43
                                              ssh-copy-id -i ~/.ssh/id_rsa.pub root@localhost
(12)启动hadoop：
    进入/srv/hadoop/bin目录：cd /srv/hadoop/bin
    启动：./hdfs namenode -format   (若多次操作此命令,需要将 /srv/hadoop/tmp文件夹删除,然后重新创建)
(13)在/srv/hadoop/sbin目录启动hdfs和yarn：
    进入目录：cd /srv/hadoop/sbin
    先启动HDFS： ./start-dfs.sh
    再启动YARN：   ./start-yarn.sh
    ----或者忽略以上步骤，直接启动： ./start-all.sh
(14)查看启动情况：输入jps
    出现如下：   11733 ResourceManager
               11097 NameNode
               11466 SecondaryNameNode
               12219 Jps
               11231 DataNode
               11871 NodeManager

(15)若以上正常,则可以进入一下页面:
    ip:50070(Namenode info页面) 、 ip:8088(Node labels of the cluster页面)