UBUNTU环境安装hadoop集群

UBUNTU环境
ubuntu-16.10-desktop-amd64.iso


虚拟机使用VMWare 12.5.2,可以把窗口关闭后台运行,VirturelBox每一个虚拟机启动后都弹出来一个新窗口,有窗口干净强迫症的我实在受不了。
网络NAT模式,共享网络,处于独立网段,可以固定IP,不影响对外连接


下载最新的安装程序,我当前版本
jdk-8u121-linux-x64.tar.gz
hadoop-2.7.3.tar.gz


1.定义主机,修改HOST文件
#为了防止主机名识别错误导致的问题,建议把默认的内容全部删除
$ sudo vi /etc/hosts
192.168.254.130 master
192.168.254.131 slave1
192.168.254.132 slave2
192.168.254.133 slave3




2、修改操作系统限制
#为了防止大并发的时候导致进程和打开文件数超出而出的问题,建议值改大一点,最大65536
$vi /etc/security/limits.conf
hadoop soft nofile 65536
hadoop hard nofile 65536
hadoop soft nproc 16384
hadoop hard nproc 16384


2.创建用户
$ sudo mkdir -p /data/hadoop
$ sudo groupadd hadoop
$ sudo useradd hadoop -d /data/hadoop -g hadoop
$ sudo chown -R hadoop:hadoop /data/hadoop/
$ sudo passwd hadoop


3安装SSH(默认不安装)
$ sudo apt-get install openssh-server
$ ps -ef|grep sshd
配置无密码登陆
$ ssh-keygen -t rsa   #遇到提示一路回车,四台机器都做
   ①在master上将公钥放到authorized_keys里。命令:
$ cat id_rsa.pub  >authorized_keys
   ②将master上的authorized_keys放到其他linux的~/.ssh目录下。(只需要把master的公钥分发出去即可)
        命令:   scp authorized_keys 远程主机用户名@远程主机名或ip:存放路径。            
            $ scp authorized_keys hadoop@slave1:~/.ssh
            $ scp authorized_keys hadoop@slave2:~/.ssh
            $ scp authorized_keys hadoop@slave3:~/.ssh 


   ③修改authorized_keys权限,命令:
$chmod 644 authorized_keys


   ④测试是否成功
   #没有提示密码,而直接进入,说明成功,每个都试一下,第一次会反一个确认信息,如果不确认,后后面启动的时候也会提示某个host认证失败
      $ ssh hadoop@localhost
      $ ssh hadoop@master
      $ ssh hadoop@slave1
      $ ssh hadoop@slave2
      $ ssh hadoop@slave3


4配置环境
安装JDK
$ scp jdk-8u121-linux-x64.tar.gz hadoop@slave1:/data/hadoop/
$ scp jdk-8u121-linux-x64.tar.gz hadoop@slave2:/data/hadoop/
$ scp jdk-8u121-linux-x64.tar.gz hadoop@slave3:/data/hadoop/
$ tar -zxvf jdk-8u121-linux-x64.tar.gz


$ scp hadoop-2.7.3.tar.gz hadoop@slave1:/data/hadoop/
$ scp hadoop-2.7.3.tar.gz hadoop@slave2:/data/hadoop/
$ scp hadoop-2.7.3.tar.gz hadoop@slave3:/data/hadoop/
配置环境变量
$ vi .profile
# ~/.profile: executed by the command interpreter for login shells.
# This file is not read by bash(1), if ~/.bash_profile or ~/.bash_login
# exists.
# see /usr/share/doc/bash/examples/startup-files for examples.
# the files are located in the bash-doc package.


# the default umask is set in /etc/profile; for setting the umask
# for ssh logins, install and configure the libpam-umask package.
#umask 022


# if running bash
if [ -n "$BASH_VERSION" ]; then
    # include .bashrc if it exists
    if [ -f "$HOME/.bashrc" ]; then
        . "$HOME/.bashrc"
    fi
fi


# set PATH so it includes user's private bin directories
JAVA_HOME=/data/hadoop/jdk1.8.0_121
export JAVA_HOME
HADOOP_HOME=/data/hadoop/hadoop-2.7.3
export HADOOP_HOME
PATH="$HADOOP_HOME/bin:$JAVA_HOME/bin:$HOME/bin:$HOME/.local/bin:$PATH"
export PATH


$ chmod 644 .profile
$source   ./.profile
$ java -version
5修改hadoop配置
配置文件基本都在~/hadoop-2.7.2/etc/hadoop
hadoop-env.sh
    export JAVA_HOME=${JAVA_HOME}   #环境变量如果有配置JAVA_HOME,省略此过程,建议再配置一下


core-site.xml
<configuration>
    <!-- 指定HDFS老大(namenode)的通信地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <!-- 指定hadoop运行时产生文件的存储路径 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/hadoop/hadoop-2.7.3/tmp</value>
    </property>
</configuration>


hdfs-site.xml
    <!-- 设置namenode的http通讯地址 -->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>master:50070</value>
    </property>
    <!-- 设置secondarynamenode的http通讯地址,只需要配置一个,当主节点死了,自动转到从节点上,如果不配置就只有一个节点(可以不配置) -->
    <property>
            <name>dfs.namenode.secondary.http-address</name>
            <value>slave1:50090</value>
    </property>
    <!-- 设置hdfs副本数量 -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <!-- 设置namenode存放的路径 -->
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///data/hadoop/hadoop-2.7.3/name</value>
    </property>
    <!-- 设置datanode存放的路径 -->
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///data/hadoop/hadoop-2.7.3/data</value>
    </property>
</configuration>


mapred-site.xml
必须先
$mv mapred-site.xml.template mapred-site.xml


<configuration>
    <!-- 通知框架MR使用YARN -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>


yarn-site.xml


<configuration>
    <!-- 设置 resourcemanager 在哪个节点-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <!-- reducer取数据的方式是mapreduce_shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
         <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
         <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

配置第二主节点(默认没有)
   新建一个masters的文件,这里指定的是secondary namenode 的主机
#vi masters

       slave1


配置从节点(仅master节点)
#vi slaves
     slave1
     slave2
     slave3
分发配置文件
$scp core-site.xml hadoop@slave1:/data/hadoop/hadoop-2.7.3/etc/hadoop/
$scp core-site.xml hadoop@slave2:/data/hadoop/hadoop-2.7.3/etc/hadoop/
$scp core-site.xml hadoop@slave3:/data/hadoop/hadoop-2.7.3/etc/hadoop/

$scp hdfs-site.xml hadoop@slave1:/data/hadoop/hadoop-2.7.3/etc/hadoop/
$scp hdfs-site.xml hadoop@slave2:/data/hadoop/hadoop-2.7.3/etc/hadoop/
$scp hdfs-site.xml hadoop@slave3:/data/hadoop/hadoop-2.7.3/etc/hadoop/

$scp mapred-site.xml hadoop@slave1:/data/hadoop/hadoop-2.7.3/etc/hadoop/
$scp mapred-site.xml hadoop@slave2:/data/hadoop/hadoop-2.7.3/etc/hadoop/
$scp mapred-site.xml hadoop@slave3:/data/hadoop/hadoop-2.7.3/etc/hadoop/

$scp yarn-site.xml hadoop@slave1:/data/hadoop/hadoop-2.7.3/etc/hadoop/
$scp yarn-site.xml hadoop@slave2:/data/hadoop/hadoop-2.7.3/etc/hadoop/
$scp yarn-site.xml hadoop@slave3:/data/hadoop/hadoop-2.7.3/etc/hadoop/



启动(只需要操作主节点)
$ cd $HADOOP_HOME
$ mkdir name data tmp                  #创建必要的数据目录
$./bin/hdfs namenode -format   #格式化namenode
$./sbin/start-dfs.sh                        #启动DFS                    
$./sbin/start-yarn.sh                      #启动yarn             

查看服务状态
$jps


通过浏览器测试hdfs:
http://192.168.254.130:50070
http://192.168.254.131:50090


















  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值