LSF
学习LSF
吴bug
如果没有特别的幸运,那就特别的努力吧!
展开
-
Job运行很慢,从哪个指标去分析?
可以通过下面几个指标,来评估 LSF 作业运行时间的长短,并找出可能影响作业执行效率的因素。有研发反应Job运行很慢,从哪个指标去分析?原创 2024-07-14 15:36:14 · 162 阅读 · 0 评论 -
优先级高的用户提交了大量作业,是否会导致正常运行的仿真被杀掉
优先级高的用户提交了大量作业,是否会导致正常运行的仿真被杀么。原创 2024-07-14 15:31:18 · 134 阅读 · 0 评论 -
bsub -w和bwait功能一样吗
bsub -w和bwait功能一样吗?原创 2024-07-14 15:27:38 · 126 阅读 · 0 评论 -
Checkpoint log is not found or is corrupted. Job not submitted.
问题Checkpoint log is not found or is corrupted. Job not submitted.解决原创 2024-07-14 15:26:30 · 201 阅读 · 0 评论 -
在lsb.resource中设置特定用户使用特定机器运行作业失效
lsb.resources文件是用于定义和配置LSF的资源的,资源类型基本都是消耗型资源,需要定义谁去消耗这些资源((如MEM、SLOTS、JOBS));这个“谁”也就是使用者,可以包括应用程序、队列、用户、项目、主机等。在配置中只定义了使用者 USERS 、 Per_HOST,没有设置他们可以消耗的资源类型(如MEM、SLOTS、JOBS),所以这样设置是没有意义的,所以会感觉没有起作用。这个需求,使用Esub脚本是更合适的解决方法,配置和使用Esub脚本没有想象的那么复杂。原创 2024-07-14 15:13:23 · 158 阅读 · 0 评论 -
LSF集群中,一般资源分配是划分主机的还是按比例比较好?
1. 划分主机(Exclusive allocation):这种方式是将集群中的一台或多台主机完全分配给某一应用或用户,这样可以确保在该主机上的所有资源都专门服务于该应用或用户。这对于需要大量计算或存储资源的任务来说是很理想的,但它可能导致资源的使用效率不高,因为在该主机没有任务需要运行的时候,其资源就会被闲置。所以,没有固定的“更好”的答案,这完全取决于您的具体需求。划分主机的方式可能对于大型、资源消耗大的任务更合适,而按比例分配的方式对于需要做到资金和资源的效率最大化的情况更为适合。原创 2024-07-14 15:09:27 · 159 阅读 · 0 评论 -
bsub的jobarray提交不了,报bsub:not match
J 的正确用法,后面是需要加引号的。原创 2024-07-14 15:07:18 · 92 阅读 · 0 评论 -
让作业均衡调度到每个机器
让作业均衡调度到每个机器可以使用 JOB_ACCEPT_INTERVAL=1s。原创 2024-07-14 15:05:55 · 122 阅读 · 0 评论 -
Esub:如果特定用户没有指定执行机,就给用户指定特定队列
Esub:如果特定用户没有指定执行机,就给用户指定特定队列。原创 2024-07-14 15:02:01 · 106 阅读 · 0 评论 -
查找编写Esub需要的环境变量
在一个已有的Esub脚本中,添加“set -x”原创 2024-07-14 14:56:45 · 226 阅读 · 0 评论 -
LSF的服务挂了,但可以自动重启
Restart=always: 只要不是通过systemctl stop来停止服务,任何情况下都必须要重启服务,默认值为no。StartLimitInterval=0: 无限次重启,默认是10秒内如果重启超过5次则不再重启,设置为0表示不限次数重启。RestartSec=30: 重启间隔,比如某次异常后,等待30(s)再进行启动,默认值0.1(s)原创 2024-07-14 14:42:59 · 116 阅读 · 0 评论 -
负载限制(loadSched和loadStop)
loadSched 必须先满足条件,然后才能将作业分派到主机。如果 loadStop 满足条件,将暂挂主机上的作业。设置的是已使用达到多少,就暂挂主机上的作业。设置的是已使用达到多少,就暂挂主机上的作业。(lsload查看到的mem 2.6G)=可用于调度的内存(bhosts -l。)+预留的内存(bhosts -l中。此值,就拒绝接收作业。,就暂挂主机上的作业。原创 2024-07-14 14:37:35 · 423 阅读 · 0 评论 -
bsub的时候,回显实际提交到集群的命令
在esub脚本输出echo $LSB_SUB_COMMAND_LINE即可。原创 2024-07-14 14:24:51 · 118 阅读 · 0 评论 -
作业状态是UNKWN,让作业恢复运行
如果 job 的状态由 UNKWN 变成了 ZOMBI,需要再次执行 bkill -r jobid。2. 使用 bjobs -a | grep jobid 查看job状态。3. 让作业重新排队:brequeue -H -e jobid。4. 然后用 bswitch 新队列 jobid 切换队列。5. 最后再 bresume jobid 恢复这个作业。此时 job 状态会变成 EXIT。您当前的job状态是UNKWN。原创 2024-07-14 14:21:49 · 131 阅读 · 0 评论 -
loadStop的原因导致的SSUSP
Total内存值是可用来调度的可用内存,当前可用内存为 0M。 loadSched和loadStop的阈值是根据 Total 内存和节点内存来做限制的。 loadStop 50G,现在有大量作业SSUSP,说明之前某个时间点该节点内存可能有低于50G的时候,导致作业SSUSP,具体是否是这个原因引起的需要用 bjobs -l JobID 看下作业的详细信息。 如果是loadStop的原因导致的 SSUSP,根据loadStop设置的阈值,Total 值高于loadStop值后,将逐步恢复挂起的作业原创 2024-07-14 14:20:43 · 191 阅读 · 0 评论 -
控制节点作业数量
如果想控制节点作业数量,可以参考下面的链接,配置lsb.resources这个文件,指定可供资源使用者使用的最大作业数(JOBS)。原创 2024-07-14 14:17:09 · 102 阅读 · 0 评论 -
设置允许root 执行LSF命令
参考链接:https://www.ibm.com/docs/zh/spectrum-lsf/10.1.0?原创 2024-07-14 13:58:02 · 199 阅读 · 0 评论 -
System: Active job threshold reached. Retrying in 60 seconds
LSF提交作业提示:System: Active job threshold reached. Retrying in 60 seconds。kill部分优先级低作业,再重新提交作业。原创 2024-07-04 11:28:14 · 179 阅读 · 1 评论 -
安装LSF
LSF安装条件、流程。原创 2023-10-20 14:49:54 · 1081 阅读 · 0 评论 -
Group <ugroup2>: Pending job threshold reached. Retrying in 60 seconds...
Group : Pending job threshold reached. Retrying in 60 seconds...原创 2023-05-16 10:42:06 · 479 阅读 · 0 评论 -
$LSB_SUB_PARM_FILE
$LSB_SUB_PARM_FILE是一个环境变量,用于指定包含作业提交所需参数的文件路径。原创 2023-04-18 13:25:45 · 219 阅读 · 0 评论