LXC+PBS+集群调度 msg: 'Bad UID for job execution MSG=connection to mom timed out'

原创 2015年11月17日 22:37:41

记录在过程所部署LXC+PBS的HPC环境遇到的问题。

LXC简介

LXC,其名称来自Linux软件容器(Linux Container)的缩写,一种操作系统层虚拟化(Operating system-level virtualization)技术,为Linux内核容器功能的一个用户控件接口。它将应用软件系统打包成一个软件容器(Container),内含应用软件本身的代码,以及所需要的操作系统核心和库。通过统一的名字空间和公用的API来分配不同软件容器的可用硬件资源,创造出应用程序的独立沙箱运行环境,使得Linux用户可以很容易的创建和管理系统或应用容器。
在Linux内核中,提供了cgroups功能,来达成资源的区隔化。它同时也提供了名称空间区隔化的功能,是应用程序看得到操作系统环境被区隔成独立区间,包括进程树,网络,用户id,以及挂载的文件系统。但是cgroups并不一定需要启动任何虚拟机。
LXC利用cgroups与名称空间的功能,提供应用软件一个独立的操作系统环境。LXC不需要Hypervisor这个软件层,软件容器(Container)本身极为轻量化,提升了创建虚拟机的速度。软件Docker被用来管理LXC的环境。
LXC通常被认为介于“加强版”的chroot和完全成熟的虚拟机之间的技术。LXC的目标是创建一个尽可能与标准安装的Linux相同但又不需要分离内核的环境。


以上摘自LXC-wiki

实施过程遇到的问题

1.LXC启动的虚拟机主机名问题

发现启动的虚拟机主机名和打包的系统中关于主机名的配置文件不一致,在虚拟机中检查配置文件和重启虚拟机都不能解决问题
结果发现,在LXC启动虚拟机的时候,config文件中有关于主机名的定义,外部配置文件起着决定性作用。

2.LXC虚拟机NFS共享

环境需要,一台Container作为nfs server,其他节点的Container作为client挂载server端的home目录,配置后发现server端可以将/home目录共享出去,client端能够查看到server的共享信息(showmount),但是mount失败并提示,类似“denied by server”信息
解决方法,实体机拷贝Container-server的/home目录并做nfs server,所有Container做client,并配置正确的权限,解决问题。具体原因待查,可能是Container不支持nfs的文件系统。

3.提交作业状态一直为Q

查看作业运行状态

checkjob <job-id>

输出

job is deferred. Reason: RMFailure (cannot start job - RM failure,rc: 15025, msg: 'Bad UID for job execution MSG=connection to mom timedout')

根据错误信息,查看pbs client状态正常 free

qnodes -l

结果发现,1.各计算节点时区和管理节点时区不一致,2.共享目录为共享成功,3.用户未同步
备注:
用户同步、认证集群中采用NIS或者LDAP服务的方式,注意查看/etc/nsswitch.conf文件中对于用户、用户组等的认证是否添加相应的方式。

4.提交作业一直为R

qdel后查看做也信息和系统log,发现pbs_mom报错,未能在exec_host拷贝.OU和.ER文件至提交作业节点,没找到.OU和.ER文件
该问题待解决,怀疑是目录权限问题。

版权声明:本文为博主原创文章,转载请注明

相关文章推荐

torque--客户端使用torque

客户端使用torque怎么在随便一台客户端上使用torque服务呢首先, 1从服务器端生成的client.sh(torque-package-clients-linux-x86_64.sh)的那个脚...

【BaiduMapSDK系列】baidumapsdk: Authentication Error errorcode: 230 uid: -1 appid -1 msg: APP Scode码校验失败

上一篇解说了怎么解决Couldn't load BaiduMapSDK_v3_1_0这个问题,然而在这个问题解决后,仍有一个问题: 跑起来的demo显示的只是网格,没有具体的地图展示 仔细看logca...

Android开发时,出现 Authentication Error errorcode: 230 uid: -1 appid -1 msg: APP Scode码校验失败

Android开发时,出现 Authentication Error errorcode: 230 uid: -1 appid -1 msg: APP Scode码校验失败 将apk改后缀名为.zip...

Msg 9002 The transaction log for database '' is full

今天有个朋友说他的数据库报错,错误信息如下:   Msg 9002, Level 17, State 2, Line 4 The transaction log for database '' ...

HTTP Status 500 - {msg=SolrCore 'collection1' is not available due to init failure: Could not load}

HTTP Status 500 - {msg=SolrCore 'collection1' is not available due to init failure: Could not load c...

Re: How to use values of properties file in selenium code - msg#02103

Great points Mark, thanks. That will be a good reasoning of disadvantages to the approach. Also w...
  • aerchi
  • aerchi
  • 2012年10月18日 10:39
  • 1932

关于 数据库连接 An attempt by a client to checkout a Connection has timed out 问题解决

异常日志信息:  [2013-04-18 20:13:08] WARN  [http-pas-9999-20$161385442] (JDBCExceptionReporter.java:100) ...

android studio failed to open zip file .Android Studio Error:Connection timed out: connect.

开发最怕遇到环境问题,废话不多说,解决方法如下。 找到自己需要打开的AS文件,打开,gradle->wrapper->gradle-wrapper.properties,在最下面会看到 distri...

解决eclispe SVN 创建资源库报错,无法验证:SVN…… 504 Connection to server timed out

我的eclipse以前用SVN插件用的好好的,最近安装Android studio 升了个级,Android studio升级了adt导致eclipse无法运行程序了,所以删除之前的eclipse重装...

Error Error initializing classpath: Connection timed out: connect (Use --stacktrace to see the full

参考文章:http://cache.baiducontent.com/c?m=9d78d513d99007b8589cc93e5801d6160e54f7743da785552c82cd1f84652...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:LXC+PBS+集群调度 msg: 'Bad UID for job execution MSG=connection to mom timed out'
举报原因:
原因补充:

(最多只允许输入30个字)