1、错误再现
直接看到Service has only 0 ResourceManager roles running instead of minimum required 1
这句话意思是仅仅启动了0个RM,但是最少启动1个。不是错误原因,只是错误结果
点击下拉菜单,继续往下边看,发现如下错误,如下图所示
Error found before invoking supervisord: dictionary update sequence element #100 has length 1; 2 is required
这句话意思是:调用监控器之前发现的错误:字典更新序列元素#100长度是1;但是要求是2。但是只凭这句话,我们并不知道具体哪儿出错了 。还得查看具体日志
2、查找原因
查看日志:less /opt/cloudera-manager/cm-5.12.2/log/cloudera-scm-agent/cloudera-scm-agent.log
看到ValueError: dictionary update sequence element #99 has length 1; 2 is required
开始报错的文件:__init__.py,381行报错
继续前看,看到:Failed to parse environment variables: CDH_HCAT_HOME........解析环境变量失败
综上可以知道__init__.py文件解析环境变量时候,381行出现错误, 因此查看__init__.py文件
综合上下行可以看到,按行取环境变量env,以“=”号分割,添加到dict,做字典序列操作,那就怀疑是环境变量env有问题
查看环境变量env, 输入env可以直接查看env环境变量
[root@node01 schema]# env
HOSTNAME=node01
TERM=linux
SHELL=/bin/bash
HISTSIZE=1000
SSH_CLIENT=192.168.40.80 9879 22
SQOOP_HOME=/opt/bigdata/sqoop-1.4.6
QTDIR=/usr/lib64/qt-3.3
QTINC=/usr/lib64/qt-3.3/include
SSH_TTY=/dev/pts/0
JRE_HOME=/usr/java/latest/jre
USER=root
LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=01;05;37;41:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arj=01;31:*.taz=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.zip=01;31:*.z=01;31:*.Z=01;31:*.dz=01;31:*.gz=01;31:*.lz=01;31:*.xz=01;31:*.bz2=01;31:*.tbz=01;31:*.tbz2=01;31:*.bz=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.rar=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.jpg=01;35:*.jpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*.pcx=01;35:*.mov=01;35:*.mpg=01;35:*.mpeg=01;35:*.m2v=01;35:*.mkv=01;35:*.ogm=01;35:*.mp4=01;35:*.m4v=01;35:*.mp4v=01;35:*.vob=01;35:*.qt=01;35:*.nuv=01;35:*.wmv=01;35:*.asf=01;35:*.rm=01;35:*.rmvb=01;35:*.flc=01;35:*.avi=01;35:*.fli=01;35:*.flv=01;35:*.gl=01;35:*.dl=01;35:*.xcf=01;35:*.xwd=01;35:*.yuv=01;35:*.cgm=01;35:*.emf=01;35:*.axv=01;35:*.anx=01;35:*.ogv=01;35:*.ogx=01;35:*.aac=01;36:*.au=01;36:*.flac=01;36:*.mid=01;36:*.midi=01;36:*.mka=01;36:*.mp3=01;36:*.mpc=01;36:*.ogg=01;36:*.ra=01;36:*.wav=01;36:*.axa=01;36:*.oga=01;36:*.spx=01;36:*.xspf=01;36:
MAIL=/var/spool/mail/root
PATH=/usr/lib64/qt-3.3/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/usr/java/latest/bin:/usr/java/latest/jre/bin:/opt/bigdata/sqoop-1.4.6/bin:/root/bin
PWD=/opt/cloudera-manager/cm-5.12.2/share/cmf/schema
JAVA_HOME=/usr/java/latest
LANG=en_US.UTF-8
KDE_IS_PRELINKED=1
MODULEPATH=/usr/share/Modules/modulefiles:/etc/modulefiles
LOADEDMODULES=
KDEDIRS=/usr
SSH_ASKPASS=/usr/libexec/openssh/gnome-ssh-askpass
HISTCONTROL=ignoredups
SHLVL=1
HOME=/root
LOGNAME=root
QTLIB=/usr/lib64/qt-3.3/lib
CVS_RSH=ssh
CLASSPATH=.:/usr/java/latest/lib/jt.jar:/usr/java/latest/lib/tools.jar:/usr/java/latest/jre/lib
SSH_CONNECTION=192.168.40.80 9879 192.168.172.71 22
MODULESHOME=/usr/share/Modules
LESSOPEN=|/usr/bin/lesspipe.sh %s
G_BROKEN_FILENAMES=1
module=() { eval `/usr/bin/modulecmd bash $*`
}
_=/bin/env
OLDPWD=/opt/cloudera-manager/cm-5.12.2/lib64/cmf/agent/build/env/lib/python2.6/site-packages
问题发现了:
module=() { eval `/usr/bin/modulecmd bash $*`
},
应该是一行,但是它是两行。以“=”split的时候,“}”,没有等号,就会报错。现在再回想这句话:dictionary update sequence element #99 has length 1; 2 is required。字典更新序列时候,就是用等分割K=V,必须得有2个元素,但是“}”没有等号,分割后只有1个元素,自然就出错了
3、解决方案
module=() { eval `/usr/bin/modulecmd bash $*`},查看生产运行完好的cdh节点,并没有此变量,即并不是cdh设置的环境变量。 仔细对比其它系统,都没有/usr/bin/modulecmd这个东西,具体不知道是怎么来的,大致说明是系统自身问题。总之对基于cloudera-manager的parcels包的可视化安装没有关系,完全可以删去。这并不是cdh本身的bug,但是也说明了cdh中的那段python代码考虑情况不足,容错性差。
既然知道了是module模块不规范,“}”缺少等号,就围绕大括号、等号出解决方案,大致给出三种解决方案
方案一(推荐)
修改环境变量env中的module,使之成为规范,成为一行或者删掉它。这是一种推荐的可行方案,但是我并没有找到此变量存在于哪个文件,并没有修改或者删除掉,如果你能找到变量存在的文件,可以修改格式或者删除掉它。
方案二、三都是修改源码,即下面路径下的__init__.py中的代码,只是修改代码不一样
/opt/cloudera-manager/cm-5.12.2/lib64/cmf/agent/build/env/lib/python2.6/site-packages/cmf-5.12.2-py2.6.egg/cmf/util/
方案二
pipe = subprocess.Popen(['/bin/bash', '-c', ". %s; %s; env" % (path, command)],
修改为如下,即在env后加 | grep =,只输出带“=”的环境变量,这样“}”没有等号, 会被过滤掉
pipe = subprocess.Popen(['/bin/bash', '-c', ". %s; %s; env | grep =" % (path, command)],
或者即在env后加 |grep -v },过滤掉右大括号,同样“}”会被过滤掉
pipe = subprocess.Popen(['/bin/bash', '-c', ". %s; %s; env|grep -v }" % (path, command)],
方案三
pipe = subprocess.Popen(['/bin/bash', '-c', ". %s; %s; env" % (path, command)],
修改为如下,即在env后加 | grep -v { | grep -v },通过两个grep -v { 输出env时候过滤掉带左、右大括号的变量,及过滤调了module变量
pipe = subprocess.Popen(['/bin/bash', '-c', ". %s; %s; env | grep -v { | grep -v }" % (path, command)],
保证所有修改完后,停掉集群中所有服务,重新启动所有agent,之后再启动集群yarn服务,不出意外,问题解决