LXC+PBS+集群调度 msg: 'Bad UID for job execution MSG=connection to mom timed out'

原创 2015年11月17日 22:37:41

记录在过程所部署LXC+PBS的HPC环境遇到的问题。

LXC简介

LXC,其名称来自Linux软件容器(Linux Container)的缩写,一种操作系统层虚拟化(Operating system-level virtualization)技术,为Linux内核容器功能的一个用户控件接口。它将应用软件系统打包成一个软件容器(Container),内含应用软件本身的代码,以及所需要的操作系统核心和库。通过统一的名字空间和公用的API来分配不同软件容器的可用硬件资源,创造出应用程序的独立沙箱运行环境,使得Linux用户可以很容易的创建和管理系统或应用容器。
在Linux内核中,提供了cgroups功能,来达成资源的区隔化。它同时也提供了名称空间区隔化的功能,是应用程序看得到操作系统环境被区隔成独立区间,包括进程树,网络,用户id,以及挂载的文件系统。但是cgroups并不一定需要启动任何虚拟机。
LXC利用cgroups与名称空间的功能,提供应用软件一个独立的操作系统环境。LXC不需要Hypervisor这个软件层,软件容器(Container)本身极为轻量化,提升了创建虚拟机的速度。软件Docker被用来管理LXC的环境。
LXC通常被认为介于“加强版”的chroot和完全成熟的虚拟机之间的技术。LXC的目标是创建一个尽可能与标准安装的Linux相同但又不需要分离内核的环境。


以上摘自LXC-wiki

实施过程遇到的问题

1.LXC启动的虚拟机主机名问题

发现启动的虚拟机主机名和打包的系统中关于主机名的配置文件不一致,在虚拟机中检查配置文件和重启虚拟机都不能解决问题
结果发现,在LXC启动虚拟机的时候,config文件中有关于主机名的定义,外部配置文件起着决定性作用。

2.LXC虚拟机NFS共享

环境需要,一台Container作为nfs server,其他节点的Container作为client挂载server端的home目录,配置后发现server端可以将/home目录共享出去,client端能够查看到server的共享信息(showmount),但是mount失败并提示,类似“denied by server”信息
解决方法,实体机拷贝Container-server的/home目录并做nfs server,所有Container做client,并配置正确的权限,解决问题。具体原因待查,可能是Container不支持nfs的文件系统。

3.提交作业状态一直为Q

查看作业运行状态

checkjob <job-id>

输出

job is deferred. Reason: RMFailure (cannot start job - RM failure,rc: 15025, msg: 'Bad UID for job execution MSG=connection to mom timedout')

根据错误信息,查看pbs client状态正常 free

qnodes -l

结果发现,1.各计算节点时区和管理节点时区不一致,2.共享目录为共享成功,3.用户未同步
备注:
用户同步、认证集群中采用NIS或者LDAP服务的方式,注意查看/etc/nsswitch.conf文件中对于用户、用户组等的认证是否添加相应的方式。

4.提交作业一直为R

qdel后查看做也信息和系统log,发现pbs_mom报错,未能在exec_host拷贝.OU和.ER文件至提交作业节点,没找到.OU和.ER文件
该问题待解决,怀疑是目录权限问题。

版权声明:本文为博主原创文章,转载请注明

torque--客户端使用torque

客户端使用torque怎么在随便一台客户端上使用torque服务呢首先, 1从服务器端生成的client.sh(torque-package-clients-linux-x86_64.sh)的那个脚...
  • zhuimuzhuimu
  • zhuimuzhuimu
  • 2016年04月15日 15:41
  • 964

TORQUE安装笔记:

TORQUE安装笔记: Torque Resource Manager是一套OpenSource的软体,主要是用来控管丛集式电脑的工作排程,虽然是免费软体但功能还算蛮完整的,可以设定不同的工作类...
  • tengh
  • tengh
  • 2013年09月25日 09:19
  • 2152

从不同节点提交 pbs job

首先安装torque-package-clients-linux-x86_64.sh 1, # pbsnodes socket_connect error (VERIFY THAT trqauth...
  • haitihaiti
  • haitihaiti
  • 2012年09月14日 16:44
  • 1660

Nginx + PHP(php-fpm)遇到的502 Bad Gateway错误

我一个统计程序估计要跑1分多钟以上 查看了一个php-fpm 配置文件 [13-Oct-2013 12:06:07] WARNING: [pool www] child 7458, scr...
  • hanshileiai
  • hanshileiai
  • 2015年08月21日 12:56
  • 1302

Job is deferred. Reason:RMFailure

配置torque2.5.12+ maui3..6p20的过程很顺利,但是在提交作业测试的时候出现了job is deferred.Reason:RMFailure (connot start job ...
  • syhui0920
  • syhui0920
  • 2014年03月07日 21:20
  • 787

PX Deq: Execution Msg,PX Deq: Execute Reply等待事件

PX Deq: Execution Msg Occurs when a parallel slave is waiting to be told what to do. This is norm...
  • zh309601335
  • zh309601335
  • 2014年08月11日 17:48
  • 1727

tomcat 启动失败Connection timed out??

spring,DruidDataSource 错误,把tomcat相关的项目都删掉,看看还是同样的错误。 重新布一个tomcat还是同样的问题。 ????...
  • dingxingmei
  • dingxingmei
  • 2015年11月06日 11:05
  • 1264

Gradle Error: Connection timed out 无法获取远程依赖解决方法(2)

AndroidStudio开发时遇到这个问题: Error:Connection timed out: connect. 大部分解决方案: 1、settings->Build,Execution,...
  • sinat_32829963
  • sinat_32829963
  • 2017年06月25日 22:31
  • 1321

ansible 新手上路

远程连接概述: 在我们开始前要先理解Ansible是如何通过SSH与远程服务器连接是很重要的: 你第一条命令: 现在你已经按照了Ansible,是时候从一些基本知识开始了,编辑(或创建)/etc...
  • zhaoyangjian724
  • zhaoyangjian724
  • 2017年10月20日 10:56
  • 107

关于使用百度地图安卓SDK的过程中出现“Authentication Error errorcode: 230 uid: -1 appid -1 msg: APP Scode码校验失败”的一个解决方法

关于使用百度地图安卓SDK的过程中出现“Authentication Error errorcode: 230 uid: -1 appid -1 msg: APP Scode码校验失败”的一个解决方法...
  • saiwaixiaowangzi
  • saiwaixiaowangzi
  • 2016年05月07日 22:37
  • 784
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:LXC+PBS+集群调度 msg: 'Bad UID for job execution MSG=connection to mom timed out'
举报原因:
原因补充:

(最多只允许输入30个字)