Hadoop-2.8.0实践——单机模式和伪分布模式

一、安装

1.1 环境
  • 系统:Ubuntu 16.04 LTS
  • 软件:
    • Java 1.7及以上
    • ssh 和 sshd
  • 安装ssh:
$ sudo apt-get install ssh
$ sudo apt-get install rsync
1.2 下载 Hadoop 2.8.0

下载地址:http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.8.0/
选择下载 hadoop-2.8.0.tar.gz,并解压。

1.3 为 Hadoop 配置 Java 路径

编辑 etc/hadoop/hadoop-env.sh:

export JAVA_HOME=/path/to/java/root/dir
1.4 启动 Hadoop

运行命令:

bin/hadoop

若打印出帮助信息,则表示安装成功。

二、标准模式(单机模式)操作

默认情况下,Hadoop被配置为以非分布式模式运行,作为一个单一的Java进程。这对于调试非常有用。
下面的示例复制未打包的conf目录作为输入,然后找到并显示给定正则表达式的每一个匹配项。输出被写入到给定的输出目录。

$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar grep input output 'dfs[a-z.]+'
$ cat output/*

2.1 伪分布模式操作

Hadoop还可以在一个伪分布模式下运行,每个Hadoop守护进程在一个单独的Java进程中运行。

2.1.1 配置

etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>
2.1.2 ssh免密码连接本地主机

检查是否可以使用ssh到本地主机,而无需使用密码:

$ ssh localhost

如果不能在没有密码的情况下ssh到localhost,请执行以下命令:

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
2.1.3 执行
格式文件系统:
$ bin/hdfs namenode -format
启动NameNode守护进程和DataNode守护进程:
$ sbin/start-dfs.sh
浏览NameNode的web界面;默认情况下:

http://localhost:50070/

创建执行MapReduce作业所需的HDFS目录:
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/<username>
将输入文件复制到分布式文件系统中:
$ bin/hdfs dfs -put etc/hadoop input
运行示例:
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar grep input output 'dfs[a-z.]+'
检查输出文件

将输出文件从分布式文件系统复制到本地文件系统,并检查它们:

$ bin/hdfs dfs -get output output
$ cat output/*

或者 查看分布式文件系统上的输出文件:

$ bin/hdfs dfs -cat output/*
当完成这些,可以停止守护进程:
$ sbin/stop-dfs.sh
2.1.4 单节点YARN

可以通过设置一些参数和运行ResourceManager守护进程及NodeManager守护进程,在伪分布模式下运行MapReduce作业。
(以下操作假设以上说明的前四步均已执行!)

配置

etc/hadoop/mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

etc/hadoop/yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
启动ResourceManager守护进程和NodeManager守护进程
$ sbin/start-yarn.sh
浏览ResourceManager web界面;默认情况下:

http://localhost:8088/

完成后,停止守护进程:
$ sbin/stop-yarn.sh

推荐:
Apache Hadoop: http://hadoop.apache.org/
Hadoop Commands Guide: http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/CommandsManual.html
Apache Hadoop Main 3.0.0-alpha3 API: http://hadoop.apache.org/docs/current/api/

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值