系统环境
centOS :6.3
所需软件
1、jdk
JKD下载地址:http://download.oracle.com/otn/java/jdk/7u3-b04/jdk-7u3-linux-x64.tar.gz
(1) jdk安装
tar -zxvf jdk-7u3-linux-x64.tar.gz
mv /upload/jdk1.7.0_03 /usr/local
#解压,并且将解压后文件移动到需要存放的位置
(2) jdk环境变量配置
打开文件/etc/profile在最后面加入以下内容
export JAVA_HOME=/usr/local/java/jdk1.7.0_30
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:
export JAVA_HOME JAVA_BIN PATH CLASSPATH
其中/usr/local/java/jdk1.6.0_30 路径为自己服务器上面jdk的安装路径
(3) 重启服务器、查看是否安装成功
重启命令:reboot
查看是否安装成功:java -version
如果输出:java version “1.7.0_03″ 说明jdk已经安装成功
2 、ssh
ssh 必须安装并且保证sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。
安装SSH
yum install ssh
启动SSH
service sshd start
伪分布式模式的操作方法
1、解压所下载的Hadoop发行版。我采用hadoop-0.16.4
2、编辑 conf/hadoop-env.sh文件,至少需要将JAVA_HOME设置为Java安装根路径。
尝试如下命令:
$ bin/hadoop
将会显示hadoop 脚本的使用文档。
Hadoop可以在单节点上以所谓的伪分布式模式运行,此时每一个Hadoop守护进程都作为一个独立的Java进程运
3、配置
使用如下的 conf/hadoop-site.xml:
<configuration> |
<property> |
<name>fs.default.name</name> |
<value>localhost:9000</value> |
</property> |
<property> |
<name>mapred.job.tracker</name> |
<value>localhost:9001</value> |
</property> |
<property> |
<name>dfs.replication</name> |
<value>1</value> |
</property> |
</configuration> |
4、免密码ssh设置
现在确认能否不输入口令就用ssh登录localhost:
$ ssh localhost
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
如果不输入口令就无法用ssh登陆localhost,执行下面的命令:
5、执行
格式化一个新的分布式文件系统:
$ bin/hadoop namenode -format
启动Hadoop守护进程:
$ bin/start-all.sh
Hadoop守护进程的日志写入到 ${HADOOP_LOG_DIR} 目录 (默认是 ${HADOOP_HOME}/logs).
浏览NameNode和JobTracker的网络接口,它们的地址默认为:
- NameNode - http://localhost:50070/
- JobTracker - http://localhost:50030/
将输入文件拷贝到分布式文件系统:
$ bin/hadoop fs -put conf input
运行发行版提供的示例程序:
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
查看输出文件:
将输出文件从分布式文件系统拷贝到本地文件系统查看:
$ bin/hadoop fs -get output output
$ cat output/*
或者
在分布式文件系统上查看输出文件:
$ bin/hadoop fs -cat output/*
完成全部操作后,停止守护进程:
$ bin/stop-all.sh
参考文献:http://hadoop.apache.org/docs/r0.19.1/cn/quickstart.html