本文来自Hadoop 2.7.1 官网http://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-common/SingleCluster.html翻译。
Hadoop: Setting up a Single Node Cluster.
----Hadoop:单节点集群安装
Purpose 目的
这篇文章描述了怎么安装和配置单节点集群(伪分布式),以便你可是很快的使用Hadoop MapReduce和Hadoop Distributed File System执行一个简单的操作。
Prerequisites 先决条件
系统支持
*GNU/Linux可以作为开发和生产平台。Hadoop在2000个GNU/Linux节点上演示过。
*Windows也是支持的,但是下面的步骤是用在Linux上的。
需要的软件
*Linux操作系统必须的软件包括:
1、必须要安装Java。
2、ssh必须要安装,sshd必须启动用来执行Hadoop脚本来控制远程的Hadoop进程。
Download 下载
在http://www.apache.org/dyn/closer.cgi/hadoop/common/下载最近发布的稳定版本。Prepare to Start the Hadoop Cluster 准备开始Hadoop集群安装
解压下载的Hadoop,编辑 etc/hadoop/hadoop-env.sh ,定义下边的参数信息:
# set to the root of your Java installation
export JAVA_HOME=/usr/java/latest
试着运行下边的命令:
$ bin/hadoop
这样会打印出hadoop脚本的用法。
现在你可以使用下边三种方式的一种来开始你的Hadoop集群:
本机(单节点)模式
伪分布式模式
分布式模式
Standalone Operation
默认情况下,Hadoop被配置为非分布式的模式,就像一个单一的Java进程一样,这种方式对于调试来说是有用的。Pseudo-Distributed Operation 伪分布式部署操作
Hadoop也能以伪分布方式运行在单节点上,这样每个Hadoop进程运行在单独的Java进程上。
配置
运用下边的方法
etc/hadoop/core-site.xml:
<configuration>
<property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
etc/hadoop/hdfs-site.xml:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
现在检查你可以不适用密码就能ssh到localhost:
$ssh localhost
如果你不能不适用密码ssh到localhost,执行:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys $ export HADOOP\_PREFIX=/usr/local/hadoop执行
下边的指令在本地运行一个MapReduce作业。
1、格式化文件系统:
bin/hdfs namenode -format
2、启动NameNode和DataNode进程:sbin/start-dfs.sh
Hadoop进程日志输出到$HADOOP_LOG_DIR文件夹,默认是($HADOOP_HOME/logs)
3、浏览NameNode的web界面,默认在: http://localhost:50070/
4、创建HDFS文件夹,来执行MapReduce作业:
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/<username>
5、把文件input复制到分布式文件系统里:
bin/hdfs dfs -put etc/hadoop input
下略。
伪分布式部署上的YARN