hadoop远程客户端安装配置
客户端系统:ubuntu12.04
客户端用户名:mjiang
服务器用户名:hadoop
- 下载hadoop安装包,保证和服务器版本一致(或直接copy服务器的hadoop安装包)
到 http://mirror.bjtu.edu.cn/apache/hadoop/common/ 下载tar.gz安装包,解压。
tar zxvf hadoopx.x.x.tar.gz - 配置
- 系统配置
修改 ~/.bashrc 文件
添加 export PATH=/path/to/hadoop/home/:$PATH - hadoop配置文件修改
在客户端只需配置集群namenode 和 jobtracker 的相关信息,以及java安装目录。即修改conf目录下文件:
hadoop-env.sh:
export JAVA_HOME=/home/mjiang/hadoop_work/jrockit-jdk1.6.0_29
core-site.xml:
<property>
<name>fs.default.name</name>
<value>hdfs://master:8020</value>
</property>
mapred-site.xml:
<property>
<name>mapred.job.tracker</name>
<value>master:8021</value>
</property>
- 系统配置
- 现在hadoop客户端已经配置好,可以运行基本的命令如:
hadoop fs -lsr /
但是由于服务器端还没有设置权限,所以向hdfs系统上传文件等命令还不能运行。
hadoop多用户权限配置
远程客户端用户在hadoop集群上运行程序时,可能会出现类似错误:
错误现象:org.apache.hadoop.security.AccessControlException: Permission denied: user=mjiang, access=EXECUTE, inode="job_201111031322_0003":hadoop:supergroup:rwx-.
原因:本地用户想要远程操作hadoop系统,没有权限引起的。
这就是权限配置不对造成的,解决方案:
- 如果是测试环境,可以取消hadoop hdfs的用户权限检查。打开conf/hdfs-site.xml,找到dfs.permissions属性修改为false(默认为true)OK了。
- 公司级应用时权限配置:
这里只进行简单的权限配置,远程用户能正常提交运行作业即可,更加专业、高级的权限配置暂时还用不到,也没有做过多研究。
在解决权限配置问题时,我们对hadoop多用户权限配置的问题,转移成单纯的hdfs文件的用户权限配置问题:
- 在服务器主机上添加客户端用户以及hadoop默认组名:
sudo /usr/sbin/groupadd supergroup
sudo /usr/sbin/useradd -e 20130630 -g supergroup -n -r mjiang - 修改hadoop集群中hdfs文件的组权限使属于supergroup组的所有用户都有读写权限
hadoop fs -chmod 773 /
- 在服务器主机上添加客户端用户以及hadoop默认组名:
- 参考文章:
http://jbm3072.iteye.com/blog/1048489