Hadoop搭建
——Pseudo-Distribution Operation
初学hadoop,结合官方文档给出在ubuntu12.04上的搭建方法。
1. Java环境搭建
可参见http://blog.csdn.net/ydd326/article/details/6860304
2. 安装ssh与rsync
$sudo apt-get install ssh rsync
根据hadoop需要ssh免密码登录的要求,对ssh进行设置
$ssh-keygen -t dsa -f ''
它会默认生成公钥到"~/.ssh" 其中‘’表示生成空密码
写入公钥
$cat ~./ssh/id_dsa.pub >> ~/.ssh/authorized_keys
启动localhost
$ssh localhost
第一次执行时需要输入“yes”。
3. 安装hadoop
1) 下载hadoop镜像
从官网下载hadoop最新版本(http://www.apache.org/dyn/closer.cgi/hadoop/common/),下载hadoop-2.5.0.tar.gz到你的安装目录。
如安装目录在~/hadoop
cd hadoop
tar -xvzf hadoop-2.5.0.tar.gz
解压后进入hadoop-2.5.0目录
2)设置环境变量
在etc/hadoop/hadoop-env.sh 中添加环境变量
# set to the root of your Java installation
export JAVA_HOME=/usr/local/lib/jdk1.7.0_67
# Assuming your installation directory is /home/i/hadoop/hadoop-2.5.0
export HADOOP_PREFIX=/home/i/hadoop/hadoop-2.5.0
在etc/hadoop/core-site.xml 中添加信息
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
在etc/hadoop/hdfs-site.xml中添加信息
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3)测试hadoop
1. 格式化文件系统
$ ./bin/hdfs namenode -format
2. 创建NameNode 和DataNode
$ ./sbin/start-dfs.sh
3. 访问NadeNode节点(default site)
http://localhost:50070/
4.生存MapReduce所需要的HDFS子文件系统
$ ./bin/hdfs dfs -mkdir /user
$ ./bin/hdfs dfs -mkdir /user/<username>
5.复制input 文件到子文件系统
$ ./bin/hdfs dfs -put etc/hadoop input
6. 运行测试程序
$ ./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar grep input output 'dfs[a-z.]+'
7. 检测输出
$ ./bin/hdfs dfs -get output output
$ cat output/*
8 dfs.audit.logger
4 dfs.class
3 dfs.server.namenode.
2 dfs.replication
2 dfs.period
2 dfs.audit.log.maxfilesize
2 dfs.audit.log.maxbackupindex
1 dfsmetrics.log
1 dfsadmin
1 dfs.servers
1 dfs.file
应该会出现上面的结果。
8. 关闭节点
$ ./sbin/stop-dfs.sh.