本节配置一个基于 linux 的 hadoop 环境。
Hadoop Modes
hadoop 支持三种模式:
- Local/Standalone Mode: 默认设置是Standalone 模式,作为一个java 进程运行。
- Pseudo Distributed Mode: 在一个机器上模拟分布式。hdfs, YARN, MapReduce 等这些hadoop daemon 都是一个独立的 java 进程。
- Fully Distributed Mode: 需要两个或多个机器作为一个集群,实现真正的分布式。
pre-install setup
Creating a user
推荐为 hadoop 建一个独立的用户, 修改目录权限
$ su
passwd
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd
# chown -R hadoop /usr/hadoop
SSH Setup
$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
然后在当前 shell 用ssh 链接 localhost 就无需输入密码了。
$ ssh localhost
installing java
$ java -version
如果这个指令可以正确的查看到java版本那么java已经争取安装,如果不能,请务必要先安装好java。
- step1: 在这儿下载 java (jdk-*u**-OS-x64.tar.gz).
- setp2: 切换到java所在文件夹并解压。
$ cd Downloads/
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
- step3: 使所有用户可以使用java, 移动java到“/usr/local”, 或者其他你希望安装的地方。
$ su
password:
# mv jdk1.7.0_71 /usr/local/
- step4
在 ~/.bashrc 里面添加以下内容:
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=$PATH:$JAVA_HOME/bin
$ source ~/.bashrc
- step5
为方便管理,把java 加入到版本管理器,ubuntu 下是 update-alternatives:
# alternatives --install /usr/bin/java java usr/local/java/bin/