1.java安装与环境变量设置
http://developer.51cto.com/art/200907/135155.htm
应用环境变量命令:
source /etc/profile (这里会同时处理/etc/profile.d/java.sh文件)
2.安装hadoop,版本hadoop-0.20.203.0rc1.tar.gz
http://blog.csdn.net/inte_sleeper/article/details/6569985
注意点:
- ssh设置中,是将master节点的authorized_keys文件复制到对应slave节点的相应目录,这样启动hadoop时,就不需要输入密码
- 是修改hadoop/conf/masters文件的内容,将localhost改为master
- 是修改hadoop/conf/slaves文件的内容,将localhost改为slave1
- 原文中rm –rf /root/hadoop_tmp/hadoop_root/dfs/data这句执行后,执行hadoop namenode -format不成功时,请使用rm -rf /root/hadoop_tmp/hadoop_root/dfs/name
- hadoop dfs -copyFromLocal tmp/gutenberg /user/root/gutenberg 如果报错,直接关闭防火墙,还不行就格式化
3.ssh设置参考
http://blog.csdn.net/hguisu/article/details/7237395
4.Linux相关命令
- python版本命令:python -V
- ip地址设置:ifconfig eth0 192.168.0.1 netmask 255.255.255.0 up
- 文件传输:scp filename root@slave1:/usr/local/tmp
- 启动时不启动防火墙:chkconfig iptables off, 反之chkconfig iptables on
- hadoop带排序功能:hadoop jar /usr/local/hadoop/contrib/streaming/hadoop-streaming-0.20.203.0.jarsort-file mappyer.py -mapper mappyer.py -file reducer.py -reducer reducer.py -input aaa/* -ouput aaa-output
- 查看hadoop结果:hadoop dfs -cat aaa-output/part-00000
- 设置时间:date -s “12:12:23 2006-10-10″
- 同步系统时间与硬件时间:hwclock --systohc
- hadoop查看有限datanode:hadoop dfsadmin -report
5.错误处理
- Agent admitted failure to sign using the key,退出本地的ssh,执行ssh-add命令就可以不用密码连接了
- Incompatiabe namespaceIDs 错误,请参考链接:http://blog.csdn.net/wh62592855/article/details/5752199,主要原因是format导致的,把datanode的dfs/data,dfs/name删掉,停掉hadoop服务,再重新格式化datanode(hadoop namenode -format)
- 加入节点后,运行程序报不能连接新节点的DFS问题,应该再启动hadoop-daemon.sh start dfs