Ubuntu 16.04 Hadoop-2.7.3全分布模式 + eclipse hadoop

最新推荐文章于 2025-04-06 10:51:55 发布

Leo_coder

最新推荐文章于 2025-04-06 10:51:55 发布

阅读量3.7k

点赞数 4

分类专栏： Hadoop

本文链接：https://blog.csdn.net/sinat_28177969/article/details/54138163

版权

Hadoop 专栏收录该内容

1 篇文章

订阅专栏

号外号外，搬家到掘金去了~

Ps：主要答疑区在本帖最下方，疑点会标注出来。个人在配置过程中遇到的困难都会此列举。

实验介绍：

　　本次实验主要介绍了Hadoop平台的两个核心工具，HDFS和Mapreduce，结合这两个核心在Linux下搭建基于YARN集群的全分布模式的Hadoop架构。

　　实验案例，基于Hadoop平台下的Wordcount分词统计的试验

实验需求：

　　1、PC机，局域网服务，Linux系统　　

背景介绍：

　　Hadoop实现了一个分布式文件系统，简称HDFS。

　　HDFS有高容错性的特点，并且设计用来部署在普PC机上，而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。

　　HDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。

　　Hadoop的框架最核心的设计就是：

　　　　HDFS和MapReduce。

　　　　HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

　　开发者在熟练掌握了hadoop的使用后轻松地在Hadoop上开发和运行处理海量数据的应用程序

　　NameNode

　　NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。

　　它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。

　　对于最常见的 3 个复制块，第一个复制块存储在同一机架的不同节点上，最后一个复制块存储在不同机架的某个节点上。

　　实际的 I/O事务并没有经过 NameNode，只有表示 DataNode 和块的文件映射的元数据经过 NameNode。

　　当外部客户机发送请求要求创建文件时，NameNode 会以块标识和该块的第一个副本的 DataNode IP 地址作为响应，这个 NameNode 还会通知其他将要接收该块的副本的 DataNode。

　　NameNode 在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。

　　这个文件和一个包含所有事务的记录文件（这里是 EditLog）将存储在 NameNode 的本地文件系统上。FsImage 和 EditLog 文件也需要复制副本，以防文件损坏或 NameNode 系统丢失。

　　NameNode本身不可避免地具有SPOF单点失效的风险，主备模式并不能解决这个问题，通过Hadoop Non-stop namenode才能实现100% uptime可用时间。

　　DataNode

　　DataNode 也是一个通常在 HDFS实例中的单独机器上运行的软件。

　　Hadoop 集群包含一个 NameNode 和大量 DataNode。

　　DataNode 通常以机架的形式组织，机架通过一个交换机将所有系统连接起来。

　　Hadoop 的一个假设是：机架内部节点之间的传输速度快于机架间节点的传输速度。

　　DataNode 响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除和复制块的命令。

　　NameNode 依赖来自每个 DataNode 的定期心跳（heartbeat）消息。每条消息都包含一个块报告，NameNode 可以根据这个报告验证块映射和其他文件系统元数据。

　　如果 DataNode 不能发送心跳消息，NameNode 将采取修复措施，重新复制在该节点上丢失的块。

实验步骤及结果：

1.搭建平台（全分布式hadoop + eclipse Neon.1 + JDK1.8）

　　集群搭建：

　　主机两台（可拓展）：

　　（1）两个主机系统均为Ubuntu 16.04 LTS

　　　　详情：

　　　　　　master 192.168.:103.26（虚拟机）

　　　　　　slave2 192.168.103.22（物理机）

　　　　　　注：

　　　　　　　　（1）slave1是在同学的笔记本上，因为他的笔记本总是飘忽不定，所以这次博客上就先不写他的ip地址

　　　　　　　　（2）master是虚拟机的理由就是第一次尝试怕配错环境，导致崩溃，所以用了VMware为master，方便拯救平台

　　（2）hadoop平台版本都为最新稳定版2.7.3(解压及安装hadoop)　　　　　　

　　　　　　下载地址：Hadoop官网 http://hadoop.apache.org/releases.html

　　　　　　步骤1：点开网页以后，点击红色箭头所指的链接

　　　　　　步骤2：点开后如下图

　　　　　　步骤3：选择一个链接下载（个人推荐最后一个 tsinghua.edu.cn 清华大学链接源比较好）

　　　　　　步骤4：下载完后打开文件管理器，选择Downloads文件夹（如果修改主要文件夹名字为中文的，应选择“下载”）

　　　　　　步骤5：解压到指定路径

　　　　　　步骤5.1：在当前文件夹下右键 - 在终端打开键入su root命令

　　　　　　步骤5.2：输入root用户密码后，如下图所示

　　　　　　步骤5.3：键入解压命令

sudo tar zxvf hadoop-2.7.3.tar.gz -C /usr/local/hadoop

　　　　　　　　（注意：如果提示hadoop文件夹不存在的，可以在root用户下用cd命令到 /usr/local路径下键入 sudo mkdir /hadoop 创建夹）

　　　　　　步骤5.4：解压后如下图所示

　　　　　　　　（注意：路径满足如图所示即可，或自行定义）

　　　　至此hadoop前期下载准备工作已经完成。接下准备java环境的配置

　　（3）JDK版本为java8-oracle（配置java环境）

　　　　　（环境：系统稳定联网状态下）

　　　　　步骤1：打开终端键入命令(root用户模式可以不用加sudo前缀)

sudo add-apt-repository ppa:webupd8team/java

　　　　　　步骤2：出现一段文字后按回车继续

　　　　　　步骤3：继续键入命令

sudo apt-get update

　　　　　　步骤4：待系统加载完所有下载源

　　　　　　步骤5：键入安装命令

sudo apt-get install oracle-java8-installer

　　　　　　步骤6：等待下载结束（过程稍微有点漫长）

　　　　　　这个版本的java默认安装在 /usr/lib/jvm文件夹下

　　　　　　安装结束后配置环境变量

　　　　　　终端输入：

sudo gedit /etc/profile

　　　　　　步骤7：配置完后，按 ctrl + s 保存

　　　　　　步骤8：在终端中输入

sudo source /etc/profile

　　　　　　使配置的环境变量生效

　　　　　　步骤9：和在Windows下配置一样，在终端测试java和javac命令是否生效，在linux下可以多测试下jps命令看java进程号

　　　　　　至此java环境变量配置完毕

　　（4）SSH免密配置

　　　　SSH 是目前较可靠，专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。SSH最初是UNIX系统上的一个程序，后来又迅速扩展到其他操作平台。

　　　　SSH在正确使用时可弥补网络中的漏洞。SSH客户端适用于多种平台。

　　　　　　Ubuntu Linux下配置免密登录主要依靠 ssh localhost的命令

　　　　　　！！注意,如果改过 /etc/hosts 下的内容需要重新配置（下图是我的例子）

　　　　由于后期为了避免hadoop的一些端口和IP错误，所以我把localhost的名字改了，顺带把 /etc/hostname 的名字也改了。

　　　　改了上述的 hosts 和 hostname的名字后，记得重启电脑或者虚拟机

　　　　192.168.91.45是我虚拟的IP的地址名字叫master 相当于没有改变配置文件之前的 127.0.0.1 localhost

　　　　所以配置ssh免密的时候是键入 ssh master 而不是 ssh localhost

　　　　话不多说！

　　　　步骤0：SSH需要安装OpenSSH-server(如果已经安装则无需理会)

sudo apt-get install openssh-server

　　　　步骤1：在非root用户模式下打开终端键入ssh localhost（或者是定义的用户名）

　　　　步骤2：提示输入密码，输入你的ssh密码（自己记得住就好）

　　　　步骤3：输入完以后，测试一下ssh localhost（或是自定义名字），输入密码后是否如下图弹出一些信息

　　　　步骤4：如果下午所示后，则创建ssh成功

　　　　步骤5：创建免密登录（不需要关闭终端），键入如下命令

ssh-keygen -t rsa

　　　　步骤6：一直按回车直至出现RSA窗口即可

　　　　步骤7：键入命令

sudo cp .ssh/id_rsa.pub .ssh/authorized_keys

　　　　步骤8：验证免密登录，输入ssh localhost（或者自定义的名字），是否还需要输入密码登录

　　　　root用户下：

　　　　步骤1：进入root用户模式（用户模式下在终端键盘入：su root，输入root密码即可）

　　　　步骤2：进入ssh配置文件

gedit /etc/ssh/sshd_config

　　　　步骤3：把PermitRootLogin的字段改成 yes（原来的好像是Prohibit xxxx的），有点忘记了。总之改成yes就可以了

　　　　步骤4：保存退出终端

　　　　步骤5：打开新的终端键入命令

sudo service ssh restart

　　　　重启ssh服务之后，打开终端

　　　　步骤6：进入root用户模式下，键入 ssh localhost（或是你的自定义名字）

　　　　步骤7：输入自定义ssh密码后，与用户模式下的类似

　　　　步骤8：键入 ssh-keygen -t rsa 创建RSA密钥

　　　　步骤9：一直回车直至出现RSA密钥图，（如果提示Overwrite 输入 y 即可）

　　　　步骤10：键入配置免密的命令

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

　　　　步骤11：完成后，在root用户模式输入 ssh localhost（或自定义名字）后，如下图所示即可。

　　　　至此，root用户和普通用户模式的ssh免密配置完成。

　　（4.1）SSH免密配置(节点篇)

　　　　　　需求：如果每个节点都需要下载安装hadoop ，则大量耗费人力物力。

　　　　　　解决：所以需要一个SSH来远程发送hadoop包分发给每个节点。

　　　　　　接下来来讲解master打通每个节点的连接方式（单节点和多节点一样，只要配置好就可以进行连接）

　　　　　　步骤1：在hosts文件中配置好各子节点的ip地址以及名称（如下图）

　　　　　　步骤2：编辑好hosts文件保存并关闭，（root用户模式下）打开终端输入

ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave* 
(星号代表子节点号码，或者把slave*换成自定义的名称)

　　　　　　步骤3：提示输入，子节点的登录密码，输入完成后，等待命令完成

　　　　　　步骤4：在终端中输入 ssh slave*(或者自定义名字)，如下图：

　　　　　步骤5：ssh打通master和子节点的通道，可以通过scp命令传输数据了。

　　　　　至此，完成对于子节点的ssh免密访问配置。

　　（5）hadoop平台版本都为最新稳定版2.7.3(解压及安装hadoop)

　　　　hadoop配置下主要注意配置文件路径的问题

　　　　主要包括：hadoop根目录下 /etc/hadoop 里面的xml配置文件

　　　　　　例：hadoop-env.sh , hdfs-site.xml, mapred-site.xml , core-site.xml , yarn-site.xml

　　　　　　注：mapred-site.xml需要复制出来到本路径，原本是mapred-site.xml.template 需要用 cp 命令复制并改名字

　　　　　　　　或者可以通过 gedit 命令创建一个新的mapred-site.xml，把模板内的内容复制过去，然后再进行配置

　　　　　　配置文件1：hadoop-env.sh（配置环境变量，让hadoop识别）

　　　　　　配置文件2：core-site.xml

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://master:8020</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hadoop.hosts</name>
        <value>*</value>
    </property>
    <property>
        <name>hadoop.proxyuser.hadoop.group</name>
        <value>*</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

　　　　　　配置文件3：hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9000</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hadoop/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>

　　　　　　配置文件4： mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapred.job.tracker</name>
        <value>master:9001</value>
    </property>
    <property>
        <name>mapred.job.tracker.http.address</name>
        <value>master:50030</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>

　　　　　　配置文件5：yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
</configuration>

　　　　　　！！！注：如果是master节点（即服务器）需要添加多一个slaves文件指定slave

　　　　　　配置文件6：slaves（选）

slave2 192.168.90.33

　　　　最后步骤：以上配置文件配置完毕后打开终端窗口，输入

hadoop namenode -format

　　　　出现如下结果，没有JAVA报错即可

　　　　初始化hadoop namenode节点成功！

　　　　打开终端利用 cd 命令进入hadoop启动命令文件下

cd /usr/local/hadoop/hadoop-2.7.3/sbin

　　　　键入如下命令启动hadoop（root用户模式下）　　　　

./start-all.sh

　　　　关闭hadoop则键入命令关闭

./stop-all.sh

　　　　输入jps在master节点测试，如果如上图所示则测试成功

　　　　在ssh slave2 节点输入jps测试

　　　　通过hadoop 自带命令

hadoop dfsadmin -report

　　　　如上图所示输出Live Datanodes，说明有存活节点，死节点为空。

　　　　证明集群配置成功！

　　（6）集群安装hadoop（完成Master节点的hadoop安装以及SSH的搭建）　　　　

　　　　构建好master与各个slave之间的ssh通信，如下图所示

　　　　步骤1：测试ssh命令与各节点间的通信

　　　　步骤2：确认本机的hadoop安装地址

　　　　步骤3：

scp –r /usr/local/hadoop/ root@slaver2:/usr/local/hadoop

　　　　把master上的hadoop分发给slave2节点（其他节点依次类推，只要搭好ssh就可以传输）。

　　　　传输过程有点久，耐心等候。

　　　　步骤4：在slave节点上配置环境变量

HADOOP_HOME=/usr/local/Hadoop  PATH=$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin

　　　　步骤5：在master启动hadoop进行测试

Namenode界面 50070端口

hadoop管理界面 8088端口

hadoop SecondaryNamenode 管理界面端口9000

　　（7）hadoop Wordcount测试（完成eclipse和eclipse hadoop插件安装）

　　　　步骤0：安装eclipse和eclipse hadoop插件

　　　　　　步骤0.1：安装eclipse

　　　　下载后，解压到自定义路径，解压后如所示

　　　　　　在此给出eclipse hadoop插件下载（http://pan.baidu.com/s/1mi6UP5I）

　　　　　　下载后，把jar放到eclipse根目录的dropins的目录

　　　　　　在根目录进入终端，进入root用户模式，输入

./eclipse

　　　　　　进入eclipse界面，完成安装。

　　　　步骤1：启动hadoop完成上述集群测试

　　　　步骤2：通过终端把测试数据 test.txt上传到hdfs中（test.txt为hadoop跟目录下的NOTICE.txt）

　　　　　　步骤2.1：在hdfs目录下创建input文件夹

hadoop fs -mkdir /input
hadoop fs -put test.txt /input

　　　　如图所示，则上传成功。

　　　　如果权限不对的话可以修改权限

hadoop fs -chmod -R 777 /input/test.txt

　　　　步骤3：打开eclipse，并完成mapreduce的wordcount代码，完成eclipse hadoop的配置

　　　步骤4：确保左上角的DFS Location能够显示hdfs中的文件目录

WordCount代码：

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

    public static class TokenizerMapper
    extends Mapper<Object, Text, Text, IntWritable>{

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) 
            {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> 
    {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException 
        {
            int sum = 0;
            for (IntWritable val : values) 
            {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

    public static void main(String[] args) throws Exception 
    {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

log4j日志文件：

log4j.rootLogger=debug, stdout, R 
#log4j.rootLogger=stdout, R   
log4j.appender.stdout=org.apache.log4j.ConsoleAppender   
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout   
#log4j.appender.stdout.layout.ConversionPattern=%5p - %m%n   
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n  
log4j.appender.R=org.apache.log4j.RollingFileAppender   
log4j.appender.R.File=log4j.log   
log4j.appender.R.MaxFileSize=100KB   
log4j.appender.R.MaxBackupIndex=1   
log4j.appender.R.layout=org.apache.log4j.PatternLayout   
#log4j.appender.R.layout.ConversionPattern=%p %t %c - %m%n   
log4j.appender.R.layout.ConversionPattern=%d %p [%c] - %m%n  
#log4j.logger.com.codefutures=DEBUG

　　　　步骤5：配置Run Configuration