CDH5 安装过程中的一些问题总结

在安装过程中出错,或者中断,想从头再来安装的,可执行下面的一些操作:
master节点:关闭server、agent

   /opt/cm-5.5.0/etc/init.d/cloudera-scm-server stop
   /opt/cm-5.5.0/etc/init.d/cloudera-scm-agent stop
   rm -rf /opt/cloudera/parcel-cache
   rm -rf /opt/cloudera/parcel-parcels

清除数据库:

mysql -uroot -p
drop database cm;
exit;
重建:
/opt/cm-5.0.0/share/cmf/schema/scm_prepare_database.sh mysql cm -hlocalhost -uroot -phadoop –scm-host localhost scm scm scm

slave节点:关闭agent

 /opt/cm-5.5.0/etc/init.d/cloudera-scm-agent stop
 rm -rf /opt/coudera

重启服务:
master节点:开启server、agent

   /opt/cm-5.5.0/etc/init.d/cloudera-scm-server start
   /opt/cm-5.5.0/etc/init.d/cloudera-scm-agent start

slave节点:开启agent

/opt/cm-5.5.0/etc/init.d/cloudera-scm-agent start

在master、slave节点搜索部署残余信息,然后删除:

rm -rf /tmp/* rm -rf /dfs/* find / -name ‘hadoop’
rm -rf /usr/bin/hadoop*
rm -rf /etc/hadoop*
rm -rf /etc/alternatives/*
rm -rf /var/lib/alternatives/*

1. Yarn无法启动:
启动Yarn服务这一步一直失败,而且没有log文件生成,也就是根本就不知道是什么错误。可能是ssh无密码登录的问题,master机器也要能免密码登录自己,切记!
2. Yarn还是无法启动:

Error found before invoking supervisord: dictionary update sequence
element #78 has length1; 2 is required

这个错误是CM的一个bug,解决方法为修改/opt/cm-5.3.0/lib64/cmf/agent/src/cmf/util.py文件。将其中的代码:

pipe = subprocess.Popen(['/bin/bash', '-c', ". %s; %s; env" % (path, command)],
        stdout=subprocess.PIPE, env=caller_env)

修改为:

pipe = subprocess.Popen(['/bin/bash', '-c', ". %s; %s; env | grep -v { | grep -v }" % (path, command)],
       stdout=subprocess.PIPE, env=caller_env)

然后重启所有Agent即可。
3. Yarn无法创建作业历史记录目录
使用用户mapred组hadoop和权限777创建DFS目录/user/history
—–>看下hadoop用户组,是否包含mapred、yarn、hdfs用户等
—-> 应该是用户权限的问题,直接改了根目录下/dfs为hadoop:hadoop,权限777
—–>/usr 也改了
—–> 清空/dfs里的内容,重启服务
4. HDFS服务无法启动
若HDFS服务无法启动,通常是第二次尝试安装中才会遇到,这是只要将上次安装时设置的Namenode和DataNode文件夹下的数据全部删除即可。
备注:如果未更改nn与dn路径,应该就是各个节点的/dfs目录,清空即可
5. Host Monitor和Service Monitor服务无法启动
—–>查看系统文件句柄ulimit -n

echo '* soft nofile 65536'  >>/etc/security/limits.conf
echo '* hard nofile 65536'  >>/etc/security/limits.conf
echo '* soft nproc 131072'  >>/etc/security/limits.conf
echo '* hard nproc 131072'  >>/etc/security/limits.conf
echo '* soft nofile 65536'  >>/etc/security/limits.d/90-nproc.conf
echo '* hard nofile 65536'  >>/etc/security/limits.d/90-nproc.conf
echo '* soft nproc 131072'  >>/etc/security/limits.d/90-nproc.conf
echo '* hard nproc 131072'  >>/etc/security/limits.d/90-nproc.con

需要重启机器
6. 8888,50070,8088等端口无法访问
现象:master机器通过wget可以正确的得到页面,但是外网却无法获取,而且网络的设置是正确的。
查看端口占用发现这些端口全部绑定在内网IP上而不是0.0.0.0。
解决方法:去各自的配置文件中配置即可,选择绑定至0.0.0.0端口,然后重启即可。
7. oozie服务启动失败
通常是第二次尝试安装中才会遇到,报错内容大概是数据库已存在。
解决方法:删除/var/lib/oozie/data文件夹即可。
8. HUE服务启动失败
报错信息是找不到libxslt.so.1。
解决方法:yum install libxslt即可。

展开阅读全文

没有更多推荐了,返回首页