Hadoop-3.0.0-alpha1搭建

Hadoop3.0.0的新特新
–最底版本的Java版本由Java7升级为Java8
–HDFS支持纠删码技术(即EC技术,它的基本原理是把M份原始数据通过矩阵运算的方式,生成K份效验数据。这样在整个M+K份数据中,丢失任何K份都可以正常恢复。最常见的糾删码配置大概会给每一份原始数据生成0.5份冗余效验数据。这样就会把整个集群的存储成本减半。糾删码的代价就是在出现故障的时候要重新执行矩阵运算来恢复数据。所以它的基本思路可以说就是计算换存储。)
–YARN Timeline Service v.2
–重写shell脚本
–Mapreduce task-level native优化
–支持多余2个的NameNode,进一步增强集群的可靠性。


先决条件
1、支持平台
GNU/Linux目前被作为开发以及生产平台,Hadoop目前在GNU/Linux平台上搭建2000多个节点的集群。
Hadoop目前也支持Windows平台。
2、所需软件
Linux和Windows所需软件包括:
1)Java选择Sun公司发行的jdk1.8 ;
2)ssh 必须安装并且保证 sshd一直运行,以便Hadoop 脚本管理远端Hadoop守护进程。此外,在ssh安装的基础上,再安装pdsh
3、安装软件
如果你的集群没有要求的软件,你必须去安装这些软件。
例如,在CentOS上:
# yum -y install ssh
# yum -y install pdsh
下载Hadoop3.0链接地址如下
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.0.0-alpha1/hadoop-3.0.0-alpha1.tar.gz
1、准备启动Hadoop集群
解压下载的Hadoop包,在Hadoop包中编辑etc/hadoop/hadoop-env.sh配置文件如下:
# set to the root of your Java installation
export JAVA_HOME=/usr/java/latest

尝试如下命令:
$ bin/hadoop
2、本地模式
默认的,Hadoop被配置为为分布式模式,作为一个单个Java进程。这对debug调试很有用。
本地模式实例如下:

$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha1.jar grep input output 'dfs[a-z.]+'
$ cat output/*

运行结果如下:
这里写图片描述
3、伪分布式模式
Hadoop也可以以为分布式的模式运行在单个节点上,其中Hadoop的守护进程运行在不同的Java进程中。
(1)配置
编辑etc/hadoop/core-site.xml如下:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

编辑etc/hadoop/hdfs-site.xml如下:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

编辑etc/hadoop/yarn-site.xml如下:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.admin.user.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
    </property>
    <property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
    </property>
</configuration>

编辑etc/hadoop/mapred-site.xml如下:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.admin.user.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
    </property>
    <property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME</value>
    </property>
</configuration>

(2)配置ssh免密码登录

$ ssh-keygen -t rsa
$ ssh-copy-id localhost

验证ssh免密码登录

$ ssh loclahost

(3)格式化NameNode

$ bin/hadoop namenode -format

(4)启动HDFS

$ sbin/start-dfs.sh

(5)启动YARN

$ sbin/start-yarn.sh

(6)通过jsp命令查看启动的服务是否正常

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值