手把手Hadoop Fully Distributed Mode 安装和配置 with an example

安装前准备

    4台电脑组成的cluster。

目标:

    在这4台电脑上配置fully distributed Hadoop-2.6.5, 因为之后要用这个Cluster来搭oozie,所以就不装最新的版本。

 

这个博客写的时候是搭在amazon aws上的,但是我最近发现,如果把Hadoop搭在云上,Hadoop一段时间不执行job,云会把一些Hadoop必须用到的端口关掉。这样会导致所有slave node上的Hadoop进程挂掉,因此无法正常运行Hadoop。

 

1.ssh 无密码通讯(对所有电脑都要操作)

    在每台电脑,在终端输入下述命令,生成一对rsa  public key和 private key:

ssh-keygen

    然后在file和passphrase一路按回车,代表设置为默认。

    在每台电脑中输入:

cd ~/.ssh

    进入到~/.ssh目录。在这个目录下,一共会有三个文件:

    id-rsa和id_rsa.pub是刚刚“ssh-keygen”生成的rsa public key和private key。"id_rsa.pub"这个后缀代表是public key。rsa算法允许我们通过public key访问private key,通过private key访问public key。private key是每台电脑自己要留住的,public key需要分享给其他电脑以供其他电脑访问本台电脑。每台电脑收到别的电脑分享的public key,然后把这个public key存在authorized_keys里面。这就意味着,如果A电脑的public key在B电脑的authorized_keys里面,那就意味着A电脑可以用private key和B电脑通讯。 

    所以,这一步是要把每台电脑的public key存到其他所有电脑的authorized_keys里面。所以我一共有四个节点,任意一个authorized_keys里就要存其他三台电脑的public key.  (我比较懒,我在一台电脑把4个都存了,然后直接把authorized_keys复制给另外三个电脑)。此时就能实现无密码通讯了,直接在其他任意一台电脑命令行输入:

ssh 172.31.11.234 

    就能访问电脑"ubuntu@ip-172-31-11-234" ,上面的ip地址是这台电脑的private ip。其实也可以通过public ip访问:

ssh ubuntu@ip-172-31-11-234

   但是这样访问并不是很方便,所以我们可以通过更改hosts文件来方便访问。

    在每一台电脑的命令行输入:

sudo vim /etc/hosts

    然后在里面把相应的private ip和名字对应起来,把其中一个设置成master,另外三个设置成slave。

    

    设置之后,就可以直接通过下列命令行直接访问:

ssh master (也可以ssh slave1, ssh slave2, ssh slave3)

2.install Java(对所有电脑都要操作)

    如果电脑里面没有Java的话,可以安装一个。首先输入如下命令更新apt-get:

sudo apt-get update

    之后输入如下命令下载Java:

sudo apt-get install default-jdk

    在命令行输入如下命令,查看新下载的java。这里需要注意,mac和linux的地址有所不同:

cd /usr/lib/jvm    (这个是Linux的Java路径)
cd /Library/Java/JavaVirtualMachines

     这是我在java路径下看到的几个jdk,最新的一个是"java-8-openjdk-amd64"。

    修改~/.bash_profile里面的内容,加入JAVA_HOME。先在命令行输入:

vim ~/.bash_profile

    因为我的电脑环境是linux,所以我在~/.bash_profile配置的内容如图所示:

 

    

 

    source使其生效:

source ~/.bash_profile

 

3.下载解压Hadoop(仅需要对master node进行操作)

    进入Hadoop官网,点击所需要版本的binary文件,我这里下载的是hadoop-2.6.5。 进入网页之后,会给一个镜像下载地址。

    回到home目录(因为我打算把Hadoop安装在home目录下,当然也可以选择其他目录):

cd ~

    在作为master node的那台电脑的命令行输入:

wget http://apache.mirrors.ionfish.org/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz

    输入以下命令解压hadoop:

tar -xvzf hadoop-2.6.5.tar.gz 

    此时我电脑上hadoop-2.6.5的目录为:"/home/ubuntu/hadoop-2.6.5"。想知道hadoop的绝对路径,可以进入hadoop-2.6.5,然后在命令行输入pwd,得到hadoop的绝对路径。

 

4.配置~/.bash_profile(每台电脑都要进行这个操作)

    对于每台电脑,编辑~/.bash_profile:

vim ~/.bash_profile

    加入如下内容:

export HADOOP_HOME=/home/ubuntu/hadoop-2.6.5   (这个是我的Hadoop绝对路径,每台电脑我也都打算存在这个路径下)
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME

    同样的,每次修改~/.bash_profile之后,都要source一下使其生效:

source ~/.bash_profile

 

5.配置Hadoop

 

    进入hadoop的配置目录:

cd hadoop-2.6.5/etc/hadoop/

    在这里我们需要修改的文件有:a) core-site.xml, b) hdfs-site.xml, c) mapred-site.xml, d) yarn-site.xml, e) hadoop-env.sh, f) slaves, g) masters

    core-site.xml里面配置如下:

<configuration>
  <property>
      <name>fs.defaultFS</name> #(这里配置的是hdfs)
      <value>hdfs://master:9000/</value>  # (master是我们在/etc/hosts里面配置的。根据/etc/hosts里面的名字来改)
  </property>
  <property>
      <name>hadoop.tmp.dir</name>  #(临时文件的存放位置)
      <value>file:/home/ubuntu/hadoop-2.6.5/tmp</value>  #(就是Hadoop的地址加上/tmp)
  </property>
</configuration>

 

    hdfs-site.xml配置如下:

 

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/ubuntu/hadoop-2.6.5/dfs/name</value>  #(这个路径要根据实际情况进行修改)
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/ubuntu/hadoop-2.6.5/dfs/data</value> # (这个路径要根据实际情况进行修改)
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
</configuration>

    mapred-site.xml配置如下。注意这里需要把mapred-site.xml.template改成mapred-site.xml,再配置:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

 

    yarn-site.xml配置如下:

 

<configuration>
     <property>
         <name>yarn.nodemanager.aux-services</name>
         <value>mapreduce_shuffle</value>
     </property>
     <property>
         <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
         <value>org.apache.hadoop.mapred.ShuffleHandler</value>
     </property>
     <property>
         <name>yarn.resourcemanager.address</name>
         <value>master:8032</value>
     </property>
     <property>
         <name>yarn.resourcemanager.scheduler.address</name>
         <value>master:8030</value>
     </property>
     <property>
         <name>yarn.resourcemanager.resource-tracker.address</name>
         <value>master:8035</value>
     </property>
     <property>
         <name>yarn.resourcemanager.admin.address</name>
         <value>master:8033</value>
     </property>
     <property>
         <name>yarn.resourcemanager.webapp.address</name>
         <value>master:8088</value>
     </property>
</configuration>

 

        最后需要在hadoop-env.sh里加入如下内容:

 

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64   (Java_home)
export HADOOP_PREFIX=/home/ubuntu/hadoop-2.6.5   (Hadoop的prefix)


# Set hadoop configuration path
export HADOOP_CONF_DIR=/home/ubuntu/hadoop-2.6.5/etc/hadoop/  (hadoop 配置路径)
export HADOOP_HOME=/home/ubuntu/hadoop-2.6.5   (hadoop_home)


# add hadoop packages(这里是)
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/share/hadoop/*/lib/*.jar
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/share/hadoop/*/*.jar

    改完hadoop-env.sh之后要重新source一下:

source hadoop-env.sh

    修改slaves文件如下:

    修改master文件如下:

    

    

6.把配置好的Hadoop发给其他所有电脑

    先回到home目录(cd ~),在命令行里依次输入以下三个命令,逐一发给其余每台电脑:

scp -r hadoop-2.6.5 slave1:~   (最后两个指的是,发给slave1电脑的~目录下,也就是home目录下)
scp -r hadoop-2.6.5 slave2:~
scp -r hadoop-2.6.5 slave3:~

 

7.启动hadoop

 

    进入hadoop目录,在命令行输入下述命令,格式化namenode:

bin/hdfs namenode -format

    格式化成功之后,可输入如下命令分别启动hdfs和yarn:

sbin/start-dfs.sh 
sbin/start-yarn.sh 

   启动成功后,在各个电脑上输入jps查看当前进程,在master node上的显示如下:

    在其余node上,显示如下:

    这表示Hadoop配置完成~

 

8.来个例子吧

    写个MyWordCount试试吧:

vim MyWordCount.java

    里面写入如下程序:

import java.io.IOException;
//import java.util.*;
import java.util.StringTokenizer;
//import java.net.URI;
//import java.net.URISyntaxException;

import org.apache.hadoop.fs.Path;
//import org.apache.hadoop.conf.*;
import org.apache.hadoop.conf.Configuration;
//import org.apache.hadoop.io.*;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
//import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
//import org.apache.hadoop.util.*;

public class MyWordCount {
    
    public static class WordMapper extends  Mapper <Object, Text, Text, IntWritable>{
        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();
        
        public void map (Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()){
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }
    
    public static class WordReducer extends  Reducer <Text, IntWritable, Text, IntWritable> {
        
        private IntWritable result = new IntWritable();
        
        public void reduce (Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException{
            int sum = 0;
            for (IntWritable val : values){
                sum+=val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }
    
    
    public static void main (String args []) throws Exception{
        Configuration conf = new Configuration ();
        Job job = Job.getInstance (conf, "MyWordCount");
        
        FileInputFormat.addInputPath(job, new Path (args[0]));
        FileOutputFormat.setOutputPath(job, new Path (args[1]));
        
        job.setJarByClass(MyWordCount.class);
        job.setMapperClass (WordMapper.class);
        job.setReducerClass (WordReducer.class);
        
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        System.exit(job.waitForCompletion(true) ? 0 : 1);
        

    }
}

    输入以下命令编译MyWordCount.java:

javac MyWordCount.java

    编译生成了三个class文件:

    打包生成jar文件:

jar cvf MyWordCount.jar *.class

    现在有一个统计字数的Map/Reduce程序了。现在再准备一个输入文件:

vim A.txt

    输入以下内容:

you are my sunshine

    现在hdfs里新建一个新的文件夹:

bin/hdfs dfs -mkdir /input

    然后把当前目录里面的A.txt放进hdfs的input文件夹里:

bin/hdfs dfs -put A.txt /input/

    输入以下命令执行MyWordCount:

bin/hadoop jar MyWordCount.jar MyWordCount /input /output

    其中,MyWordCount.jar是放在hadoop-2.6.5目录下的jar包,MyWordCount代表存在里面的MyWordCount.class, /input是在hdfs中存放输入文件的文件夹,/output是输出的文件夹。值得注意的是,/output必须是hdfs不存在的一个文件夹,否则执行会失败。

    执行结束后,可用如下命令将存在hdfs中的output取回本地:

bin/hdfs dfs -get /output

    在output文件夹里,有两个文件,一个是_SUCCESS,代表执行成功。par-r-0000里存放输出结果。

    可通过如图所示命令,查看结果:

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值