很早就听说hadoop,但项目中一直没怎么接触,今天终于下定决心,花了一天的时间,搭起了基本的开发环境,总结如下。
一.软件准备
jdk、hadoop软件包、eclipse软件包(linux版)
二.安装java
详见http://blog.csdn.net/tonytfjing/article/details/42167599
三.安装hadoop(单机伪分布式)
3.1创建hadoop用户
为hadoop创建一个专门的用户,具体如下:
groupadd hadoopGroup //创建hadoop用户组
useradd -g hadoopGroup hadoop //新增用户hadoop并将其加入hadoopGroup群组
passwd hadoop //建立hadoop用户的新密码,密码也是hadoop
3.2安装hadoop
用ftp工具将hadoop安装包上传到linux系统中,解压
tar -zxvf hadoop-1.2.1.tar.gz
3.3配置ssh
Hadoop需要通过SSH(安全外壳协议,可以保护共享访问的安全性)来启动Slave列表中各台主机的守护进程。但是由于SSH需要用户密码登陆,所以为了在系统运行时,节点之间免密码登录和访问,就需要把SSH配置免密码方式。具体如下:
ssh-keygen -t rsa //生成密钥对,ras加密
一直按enter,就会按照默认的选项将生成的密钥对保存到.ssh/id_rsa
cd .ssh/
cp id_rsa.pub authorized_keys //进入.ssh,把id_rsa.pub文件追加到授权(authorized_keys)里面
ssh localhost //测试无密码登录本机
3.4配置hadoop环境
切换到hadoop的安装路径找到conf/hadoop-env.sh文件,vi编辑,在文件最后添加如下语句:
export JAVA_HOME=/usr/java/jdk1.7.0_71
同时将hadoop安装目录的bin目录配置到系统path变量中,不然如果无法使用hadoop命令(当然也可以每次都到hadoop安装文件夹下的bin里面去执行./hadoop)