![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
LSF
文章平均质量分 61
LSF相关
王万林 Ben
RHCA,芯片行业IT&CAD。欢迎交流,技术支持请私信。https://icinfra.cn
展开
-
LSF Community Edition(LSF社区版)介绍与下载
请见链接LSF社区版介绍与下载如有疑问,欢迎私信。原创 2022-09-11 11:08:24 · 2307 阅读 · 6 评论 -
LSF如何看job预留slot是否合理?
问题描述很多时候,用户预留多了或少了slot,导致执行机很空或很挤。有方法,看job预留slot是否合理吗?问题解决按照https://blog.csdn.net/thesre/article/details/125435802将idle_factor字段打开,然后比较预留值与idle_factor两者相差多大,即可知道job预留slot是否合理。......原创 2022-06-23 23:03:59 · 642 阅读 · 0 评论 -
LSF提示userName <thesre>. getpwnam() failed:Bad user ID
报错:LSF提示userName <thesre>. getpwnam() failed:Bad user ID原因:由于LDAP在LSF进程之后启动,LSF无法获取到LDAP用户信息。参考:Jobs stuck pending on newly provisioned or diskless nodes using LDAP for user authentication. https://www.ibm.com/support/pages/jobs-stuck-pending原创 2022-05-09 19:35:21 · 432 阅读 · 0 评论 -
LSF 10.1 Community Edition Installation Guide
LSF社区版,每cluster支持up to 10台computing node每node支持up to两个CPU socket每node支持up to 50 core每cluster支持up to 2500个run or pending job原创 2022-05-09 17:26:27 · 2496 阅读 · 6 评论 -
LSF - 提交GUI应用到LSF无法运行,报错Failed to connect to socket /tmp/dbus-xxxxxxxxx: Connection refused
LSF - 提交GUI应用到LSF无法运行,报错Failed to connect to socket /tmp/dbus-xxxxxxxxx: Connection refused问题描述提交GUI应用到LSF无法运行,如下所示问题分析这种GUI应用,不能以交互式的方式提交。提交命令换成bsub firefox即可。...原创 2021-10-14 22:04:08 · 828 阅读 · 0 评论 -
Linux - 因执行机光模块故障导致LSF job的idle_factor为0
Linux - 因执行机光模块故障导致LSF job的idle_factor为0问题描述某台执行机hostA上的任务,任务无进展,对应的log无内容。问题查看登陆上去,使用top -u $USER -> H查看用户的进程大多是S状态,一两个是D状态,占用的CPU都是0;使用top - H - 1查看所有CPU情况,发现多数CPU都是0%,有4个是100%,都是IO wait。查看网卡数据$ watch "cat /proc/net/dev| column -t"可以看到网卡的er原创 2021-09-01 22:29:03 · 234 阅读 · 0 评论 -
LSF - bjobs频繁查询导致集群性能问题的debug分析
LSF - bjobs频繁查询导致集群性能问题的debug分析问题描述用户执行正常的bjobs很慢,有时候甚至失败。用户将问题报告给LSF管理员。问题分析根据Diagnose query requests说明,LSF管理员查看对应的性能日志,发现有大量的bjobs查询来自于机器host01的用户user01。查询每分钟高达700次。找用户user01核对,他正在跑synopsys sentaurus TCAD任务,会在GUI上提交LSF任务。用户将任务停掉后,频繁的查询随后消失。可以确认是user原创 2021-07-29 13:02:50 · 1180 阅读 · 0 评论 -
简单的资源预留修正流程图
简单的资源预留修正流程图假设有群组两级,先根据1级群组获取到所有的2级群组,然后遍历这些2级群组,并得到全部JOB,再根据黑白名单以及几个阈值,来修正预留值。原创 2021-07-16 22:49:28 · 260 阅读 · 0 评论 -
LSF - 基础 - 管理
LSF - 基础 - 管理在LSF环境下工作启动、停止与重新配置LSF使用 LSF 管理命令 lsadmin 和 badmin 来启动和停止 LSF 守护进程,并重新配置集群属性。两个 LSF 管理命令(lsadmin 和 badmin)这两个命令只有LSF管理员或root能运行。要启动和停止 LSF,以及在更改任何配置文件后重新配置 LSF,请使用以下命令:lsadmin 命令控制 lim 和 res 守护进程的操作。badmin 命令控制 mbatchd 和 sbatchd 守护程序的原创 2021-07-13 22:49:43 · 8647 阅读 · 1 评论 -
LSF - 集群概览
LSF - 集群概览原创 2021-07-12 08:29:55 · 3628 阅读 · 0 评论 -
LSF - Cadence任务完毕了但显示RUN - daemon starter配置
LSF - Cadence任务完毕了但显示RUN - daemon starter配置文章目录LSF - Cadence任务完毕了但显示RUN - daemon starter配置前言一、原因二、解决方法方法1方法2总结参考资料前言LSF跑Cadence应用,用户界面应用完毕了,但bjobs看还在RUN。提示*WARNING* LSF has been configured to use Linux control groups; however, the Cadence daemon star原创 2021-05-19 22:16:32 · 1197 阅读 · 1 评论 -
LSF - bsub提交的任务关掉了,bjob查看job还在RUN?
HPC环境下,使用打开cgroup的LSF集群,经常会出现这样的情况:`bsub`提交了一个`gnome-terminal`,用完之后将`gnome-terminal`关掉了,这个`job`还在运行。通过`bjobs -l <JOB ID>`查看到`执行机`,然后登陆上去看,发现有`dbus-luanch`与`dbus-daemon`两个进程在运行。正因为这两个进程还在运行,导致`LSF`判断`job`还在运行。原创 2021-05-19 21:33:32 · 3734 阅读 · 2 评论 -
LSF - LSF会使用什么cgroup子系统?
资源调度与任务管理系统之一LSF,在HPC行业得到广泛使用。那么LSF是如何精确地进行资源管理的呢?答案是需要开启其被管理主机的Control Groups(cgroups)功能。原创 2021-05-19 08:54:28 · 847 阅读 · 4 评论 -
*WARNING* LSF has been configured to use Linux control groups; however, the Cadence daemon starter
时间戳:2021年03月24日 18:03:41问题描述:WARNING LSF has been configured to use Linux control groups; however, the Cadence daemon starter has not been configured.该问题会导致JOB跑完,但bjobs查看时还显示RUN的状态。解决方法:将LSF的CGROUP关闭,参考链接1;如果LSF的配置无法修改,则可将工具的CDS_SITE变量设置,使得程序能在<原创 2022-08-14 17:00:49 · 229 阅读 · 0 评论