hadoop完全分布式安装

安装步骤:


一 安装jdk(安装oracle版本的jdk)

首先将*.tar.gz解压

具体方法为:tar -xzvf *.tar.gz

假设得到的文件夹为java

将其移动到/usr/中

命令为:sudo mv java /usr/

然后设置环境变量:

sudo gedit /etc/profile

打开文件

在结尾处umask 022前,输入:

JAVA_HOME=/usr/java
  export JRE_HOME=/usr/java/jre
  
  export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

Ubuntu 中修改默认jdk

update-alternatives --install /usr/bin/java java /usr/java/bin/java300
update-alternatives --install /usr/bin/javac javac/usr/java/bin/javac 300

通过这一步将我们安装的jdk加入java选单。

update-alternatives --config java

选择默认的jdk

java -version

检查


二、           配置hosts文件

先简单说明下配置hosts文件的作用,它主要用于确定每个结点的IP地址,方便后续

master结点能快速查到并访问各个结点。在上述3个虚机结点上均需要配置此文件。由于需要确定每个结点的IP地址,所以在配置hosts文件之前需要先查看当前虚机结点的IP地址是多少,可以通过ifconfig命令进行查看,如本实验中,master结点的IP地址为:

        

如果IP地址不对,可以通过ifconfig命令更改结点的物理IP地址,示例如下:

        

通过上面命令可以将IP改为10.10.54.121。将每个结点的IP地址设置完成后,就可以配置hosts文件了,hosts文件路径为;/etc/hosts,我的hosts文件配置如下,大家可以参考自己的IP地址以及相应的主机名完成配置

 10.10.54.122    node1
10.10.54.123    node2
10.10.54.121    master

三、           建立hadoop运行帐号

即为hadoop集群专门设置一个用户组及用户,这部分比较简单,参考示例如下:

sudo groupadd hadoop    //设置hadoop用户组

sudo useradd –s /bin/bash –d /home/hadoop –m hadoop –g hadoop –G admin   //添加一个zhm用户,此用户属于hadoop用户组,且具有admin权限。

sudo passwd root   //设置用户hadoop登录密码

su hadoop   //切换到hadoop用户中

四、           配置ssh免密码连入

master上面执行

ssh-keygen -t rsa(密码为空,路径默认)

该命令会在用户主目录下创建 .ssh目录,并在其中创建两个文件:id_rsa私钥文件,是基于 RSA算法创建,该私钥文件要妥善保管,不要泄漏。id_rsa.pub公钥文件,和 id_rsa文件是一对儿,该文件作为公钥文件,可以公开

cp .ssh/id_rsa.pub .ssh/authorized_keys

把公钥追加到其他主机的authorized_keys文件中

ssh-copy-id -i .ssh/id_rsa.pub hadoop@node1

ssh-copy-id -i .ssh/id_rsa.pub hadoop@node2

可以在master上面通过ssh无密码登陆node1node2

ssh master

ssh node1

ssh node2

五  下载hadoop的ta.gz包,将其解压到home/hadoop下。

、                 配置hadoop环境变量 vi /etc/profile

                 
    export HADOOP_INSTALL=/root/src/hadoop/hadoop-0.20.2
              export PATH=$PATH:$HADOOP_INSTALL/bin

六   配置hadoop

配置HADOOP运行参数

vi conf/masters

 

localhost替换为master

 

vi conf/slaves

 

删除localhost,加入两行:

master

node1

node2

 vi conf/core-site.xml

 

<property>  
<name>fs.default.name</name>  
<value>hdfs://master:9000</value>  
</property>  

vi conf/hdfs-site.xml
    <property>  
     <name>dfs.name.dir</name>  
     <value>/home/hadoop/dfs/filesystem/name</value>  
    </property>  
    <property>  
     <name>dfs.data.dir</name>  
     <value>/home/hadoop/dfs/filesystem/data</value>  
    </property>  
    <property>  
     <name>dfs.replication</name>  
      <value>3</value>  
    </property>  

vi conf/mapred-site.xml  

    <property>  
     <name>mapred.job.tracker</name>  
      <value>master:9001</value>  
    </property>  
    <property>   
     <name>mapred.tasktracker.map.tasks.maximum</name>  
     <value>4</value>  
    </property>   
    <property>   
     <name>mapred.tasktracker.reduce.tasks.maximum</name>  
     <value>4</value>  
    </property>  
    <property>  
     <name>mapred.system.dir</name>  
     <value>/home/hadoop/mapreduce/system</value>  
    </property>  
    <property>  
      <name>mapred.local.dir</name>  
     <value>/home/hadoop/mapreduce/local</value>  
    </property>  

复制HADOOP文件到其他节点

 scp -r /home/hadoop/hadoop-1.2.1hadoop@node1:/home/hadoop/hadoop-1.2.1
 scp -r /home/hadoop/hadoop-1.2.1  hadoop@node2:/home/hadoop/hadoop-1.2.1

格式化名称节点并启动集群

hadoop namenode -format

 

8、启动集群并查看WEB管理界面

start-all.sh

访问http://localhost:50030可以查看 JobTracker 的运行状态

访问http://localhost:50060可以查看TaskTracker的运行状态

访问http://localhost:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log

 

9、停止集群

stop-all.sh停止集群








 
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页