Ivyent-CSDN博客

原创 HPCinsights内存预测，助力HPC集群资源优化

其中，内存预测数量统计是用来统计每天内存预测总数量、内存预测命中数量和内存预测准确数量；该企业使用了HPCinsights的内存预测功能后，自动给每个作业指定了更合理的内存资源，很大程度上改善了由于内存资源分配不均衡导致的部分主机内存利用率低、部分主机时常出现OOM的情况。国内某人工智能芯片企业，芯片研发用户在向HPC集群提交作业时，经常会遇到不知道需要指定多少内存的情况，要么指定内存资源过大，要么指定内存资源过小，甚至很多作业不指定内存资源，导致部分主机由于内存资源指定不合理，经常发生OOM的情况。

2024-02-21 15:50:37 786

原创 EDA环境从CentOS迁移至RHEL

节点加入LSF集群后，如果您希望重新将其纳入到HPCinsights的监控范围，您可以在自动化运维场景下查找到“加入HPCinsights监控”，并点击【运行】按钮。在弹出的运行对话框中，选择需要备份的NIS服务器及备份到的NFS位置（路径可修改），并填写NIS服务器所在的网段。若您希望将升级后的节点重新加入LSF集群，并重新开始接收作业，您需要在自动化运维场景界面中点击“节点加入LSF集群”，然后点击【运行】按钮。在弹出的运行对话框中，选择需要备份的NFS服务器，并在预留的空框中输入需要备份的目录。

2024-02-21 15:50:04 1109

原创 HPC集群自动弹性扩缩的两种实现方式

HPCinsights与Augur的组合可以更加灵活地实现HPC集群弹性扩缩，其主要特点是，弹性扩缩操作是通过调用Augur平台中的Ansible脚本实现的（例如在AWS上创建虚拟机、加入LSF集群都以Ansible脚本方式实现，可以根据实际需要进行修改），因而可以应用于多种公有云平台，也可以根据具体需求灵活调整HPC集群中的统一用户认证、共享文件系统等设置。其中，LSF Resource Connector是LSF官方提供的自动扩缩工具，能够帮助用户实现LSF集群的弹性扩缩。

2024-02-21 15:49:36 937

原创自动化运维平台Augur

随着企业服务器数量越来越多，当到达几百台、上千台服务器之后，服务器的日常管理也逐渐繁杂，如果每天通过人工去频繁的更新或者部署、管理这些服务器，势必会浪费大量的时间，而且人为的操作极有可能造成某些疏忽和遗漏。Augur自动化运维平台以保障业务安全、稳定和可靠运行为目的，是提供自动化运维、安全补丁更新、日志分析、性能监控和资产管理等多个实用功能的一体化运维平台。上面涉及到的问题，使用Augur自动化运维平台都可以解决。可以管理服务器、交换机、通用设备，以及CPU、内存条、GPU、硬盘、RAID控制器、网卡等。

2024-02-21 15:49:09 828

原创 EDA许可证监控工具Athena介绍

用于查看已完成的Task信息，包括Feature、Product、用户、主机、项目、许可证使用数量、许可证使用时长、License Server、启动时间和结束时间。用来查看各个用户在一段时间范围内使用Feature的情况，包括用户名、Feature、使用总次数、使用次数、使用总数量、占用数量、使用总时长、占用时长和占用时长比例。用来查看各个项目在一段时间范围内Feature的使用情况，包括项目名、Feature、使用总次数、使用次数、使用总数量、占用数量、使用总时长、占用时长和占用时长占比。

2024-02-21 15:48:40 629

原创 LSF集群监控和分析工具HPCinsights介绍

可以看到，HPCinsights不仅具备常见的系统监控能力，在作业资源分析、多维度资源统计和用户作业资源实时监控等方面，也提供了很多实用功能。上面这些问题，并不能通过传统的监控手段（例如开源Zabbix工具）来解决，而是需要将系统硬件资源监控和LSF调度管理要素（作业、用户、队列、项目等）相结合，才可以实现。除了上面这些分析功能以外，HPCinsights还可以帮助管理员找出异常挂起的作业，避免不必要的系统资源浪费（挂起状态的作业并不释放内存，因而会导致内存资源浪费）。

2024-02-21 15:45:24 1053

原创 Environment Modules工具介绍与使用

在Linux环境下，当同一个软件存在多个版本且多个版本都需要在不同的场景下或给不同人员使用时，配置环境变量是一个非常繁琐的过程。Environment Modules是一个专门管理环境变量和软件版本的工具，可以通过NFS共享的方式把多个软件的多个版本安装在NFS共享目录下，通过module load等命令可以非常方便地使用不同版本的软件。Environment Modules工具在EDA领域使用非常广泛。本文介绍Environment Modules的安装和基本使用方法。

2024-02-19 12:24:49 1174

原创远程桌面工具NoMachine简介

其基本原理是，图中的Primary Enterprise Terminal Server（主Server节点）与Secondary Enterprise Terminal Server（备Server节点）组成HA集群，对外提供服务，对内通过负载均衡算法向后面的3台Terminal Server Node（终端服务节点）分发请求，在其中某一台节点上创建远程桌面，并返回给用户。但目前来说，在EDA领域，NoMachine不失为一个稳定、安全和性价比较高的产品。运行任何图形密集型任务。

2024-02-19 12:24:29 1641

原创 LSF作业指定rusage资源预留的使用

说明：默认单位为分钟。除最后阶段外的所有阶段的持续时间都必须指定，而衰减率都是可选的，如果省略，则假定为0。除最后阶段外的所有阶段的持续时间都必须指定，而衰减率都是可选的，如果省略，则假定为0。在下面的示例中，同一个应用程序存在两个版本：1.5和2.0.1，app_lic_v15是1.5版本的license资源，app_lic_v201是2.0.1版本的license资源。rusage定义了作业的预期资源使用情况，它用于为作业指定预留资源，或者在运行交互式作业时将作业映射到主机并调整负载。

2024-02-19 12:24:08 578

原创 LSF实践专题（37）：LSF中资源的属性

当然，这里我们只是举例，所以虽然是动态数值，但是其实每次都是相同的值，在实际使用中，我们可以在elim脚本中写入更复杂的逻辑，比如探测系统中某个属性，或者读取某些文件的内容来决定资源当前的数值是多少。这是elim的一个固定格式，echo的字串中，第一个域表示这个elim返回几个resource的数值，当前我们只返回licA的数值，所以数量是1，第二个域是第一个资源的名字，第三个域是第一个资源的值，这个值可以是数值也可以是字符串，根据具体资源的类型决定。以上就是对resource的基本属性的设置方式。

2024-02-19 12:23:49 749

原创 LSF实践专题（36）：对LSF中作业的pending reason进行分类查看

当LSF集群中作业比较多，出现某些资源不够用的时候，就会有作业pending的状态。在中，介绍过一个pending作业启动时间的预测功能——ALLOCATION_PLANNER，可以方便作业的提交者做一些工作安排。同时，LSF会给每个pending作业设置一个pending reason，让用户知道作业为什么没能马上开始运行，并且可以尝试调整作业的需求来让作业更早运行起来。而这些作业的pending reason各种各样，我们可以通过分类进行解读。

2024-02-19 12:23:34 643

原创 LSF实践专题（35）：如何使用MIG GPU资源

例如，一个3个单元的GI，可以划分为3个相同的CI，或者划分为一个2个单元的CI和一个1个单元的CI。如图所示，我们可以在每张A100 GPU上创建一个7个单元的MIG device，也可以同时创建一个4个单元和一个3个单元的MIG device，或者一个4个单元加一个2单元和一个1单元，等等。当作业运行起来以后，我们看到，由于0-3单元上之前的作业已经创建了一个大小为4的GI，所以这个新的GI从单元4开始创建，大小为3个单元，而CI也是从单元4开始，但是只分配2个CI给这个作业。

2024-02-19 12:23:11 652

原创 LSF实践专题（34）：判断LSF作业申请CPU和内存的合理性

LSF这个新的CPU和MEMORY EFFICIENCY功能，就是对作业提交时申请的CPU和内存大小和作业运行时实际使用的CPU和内存大小进行比较，让用户能够观察到他们是否相差过多，从而在提交相同或类似作业的时候，方便参考，调整bsub的参数来进行更合理的CPU和内存资源请求。这个时间是指作业到目前为止消耗CPU达到这个峰值的时间。：在这个作业里，这里两个值都是38.10%，他们分别是作业平均使用的CPU个数除以作业申请的CPU个数的百分比，和作业峰值使用的CPU个数和作业申请的CPU个数的百分比。

2024-02-19 12:22:57 659

原创 LSF实践专题（33）：在Windows上部署LSF集群

欢迎关注下方微信公众号【HPC常青园】，共同交流HPC集群管理经验和最佳实践。如果您有关于HPC集群的具体需求，欢迎邮件沟通交流：[email protected]。LSF作为一个功能强大、在HPC领域被广泛应用的调度软件，不仅支持在Linux操作系统上安装，也支持在Windows操作系统上安装。以上是在Windows中部署LSF集群的基本操作，有问题欢迎在留言区与我们交流。LSF集群所有机器需要对接Windows AD，关闭防火墙。下面将详细介绍如何在Windows系统上部署LSF集群。双击安装包，点击下一步。

2024-02-18 10:04:43 350

原创 LSF实践专题（32）：对作业的内存和CPU使用进行限制

这时，提交新的带有MEMLIMIT或者CPULIMIT的作业后（无论是bsub指定还是在queue或application中设置的limit），LSF就会将对应的LIMIT数值设置到CGROUP该作业对应的进程组上，一旦系统发现作业的使用超出限制，会立刻终止掉作业进程，并且返回相应的信息，LSF的服务进程获取到作业进程终止的信息后，会连同系统返回的信息一起报告给LSF管理节点，管理节点将这些信息写入日志文件，并且通知用户作业已经因为LIMIT超过而退出。

2024-02-18 10:04:10 1466

原创 LSF实践专题（31）：等待作业启动时间预测

当LSF集群中的作业比较多，计算资源相对有限时，难免会产生资源竞争，导致作业提交后不能立即运行。LSF中称这类作业为pending（等待）作业。很多用户会想知道，自己的作业需要等待多久才能开始运行。如果能够知道大致的等待时间，用户就可以做一些作业相关的后续安排。不过这个等待时间涉及集群内很多资源和调度策略的综合因素，不容易快速看出，如果LSF能够提供一个参考数据，会更有帮助。从LSF10.1 Fix Pack6开始，LSF提供了一个叫做。

2024-02-18 10:03:55 726

原创 LSF实践专题（30）：在LSF集群通过Guaranteed SLA进行资源定向规划

是指从哪些host上抽出对应的资源进行分配，如果指定的host上面的资源是多余分配到资源池的，比如host上有32个slots，但是我们只给sla1分配16个，sla2分配8个，那剩下的8个则不在资源池里，属于可以自由使用的资源，不论是绑定了service class的作业，还是没有绑定的作业都可以使用。通过LSF中的Guanranteed SLA功能，可以为指定队列中带有特殊标记的作业预留一部分资源，即使是来自于同一个队列，但是没有对应标记的作业，也无法使用这些预留资源。

2024-02-18 10:03:41 674

原创 LSF实践专题（29）：LSF抢占调度进阶选项

这种情况下，可以根据自己集群的特点，设置一个延时抢占参数，让高优先级队列的作业在等待了指定时间仍然不能运行时，才触发抢占动作。优先抢占运行时间最短的作业，由于作业被抢占会造成作业进程中断，当作业恢复的时候，再将这些进程恢复，但是对于一些计算量很大的作业，很多中间过程数据并不会记录在文件中，如果这个作业已经运算了很长时间，突然因为被抢占而被打断，在恢复时需要重新计算抢占前已经完成的部分，造成过多的资源浪费，因此，这个选项优先抢占运行时间最短的作业，让造成这种资源浪费的可能性降到最低，或者尽量避免。

2024-02-18 10:03:25 944

原创 LSF实践专题（28）：使用LSF Data Manager进行数据管理

在配置了LSF Data Manager之后，集群一的Data Manager会提前向集群二和集群三所对应的Data Manager查询谁的中心存储区已经存储了所需的源文件，假设集群三已经有了相同的文件，而集群二还没有，那么作业会被优先传递到集群三，从而尽量避免额外的数据传输。LSF在为作业查询数据时，会先访问用户在-data中提交的原始文件，将原始文件的这些数据与中心存储区的数据进行对比，如果都一致，证明中心存储区的文件就是所需的文件，就会将存储区文件的对应位置发给实际的作业执行节点来使用。

2024-02-18 10:03:10 663

原创 LSF实践专题（27）：LSF License Scheduler简介

如果license server上只剩下少量license可用，但是两个作业同时申请了license，或者有些作业申请了license但并没有第一时间从license server中获取，在没有License Scheduler的调度时，就会导致license的争抢，从而导致一些作业失败或者影响作业效率。，只有当License Scheduler为所有指定的license都分配了满足需求的license数量，作业才会运行，运行后bhosts -s命令可以查看相应license feature的使用情况。

2024-02-18 10:02:42 738

原创 LSF实践专题（26）：再探LSF docker作业

根据不同需要，使用docker创建容器时可能会需要配置很多不同的运行参数，如果将不同类型的容器作业所需的容器镜像和运行参数配置到不同的application或者队列中，就不必在每次提交作业的时候都去填写这些信息，让用户能够更加方便地提交容器作业，避免因一些不必要的错误耽误时间。如果节点上的系统是RHEL8，那么系统默认的容器是podman，这时也有docker命令，但是只是podman的一个符号链接，这时候需要先卸载podman，并正常安装docker。当容器与外部环境有所交互时，就会有一些安全隐患。

2024-02-18 10:02:12 645

原创 LSF实践专题（25）：使用egroup实现动态用户组和节点组

，但是还没有在egroup中为该群组设置相应的输出，就通过badmin mbdrestart或badmin reconfig命令尝试使配置生效，LSF就会认为该群组的成员为空，并且不会在配置中加载这个群组，如果碰巧同时为这个群组设置了其他调度策略相关的配置，比如设置了limit，或者在某个队列中使用了这个群组作为成员，LSF就会提示这个群组不存在，并且忽略所有相关的调度设置。LSF中有一个动态群组的设置，对于用户群组和节点群组都可以应用，管理员只需要按照平时的设置方法定义一个群组的名称，以及各种属性。

2024-02-18 10:01:45 682

原创 LSF实践专题（24）：如何在AWS上部署LSF集群

虚拟机空闲的时候，也会收费，但是如果这个时间设置的过小，而作业量比较大，也不太合适。比如虚拟机刚刚空闲了2分钟，LSF将其注销后，马上又有新的作业需要创建虚拟机，因为虚拟机从创建到成功启动并加入到LSF集群还是需要一定的时间，这个时长取决于虚拟机的属性、云服务提供商的一些具体情况、当前LSF集群的繁忙程度，时间长短不一，通常会需要2~4分钟的时间，这个时间不能用于作业执行，但是同样会计入这个虚拟机的收费时长里，所以如果这个创建时间和实际虚拟机执行作业的时间之比越大越不划算。

2024-02-18 10:01:29 854

原创 LSF实践专题（23）：在Google Cloud上部署LSF集群

这个值可以根据自己的需要进行设置，没有作业运行仍然保留VM会导致额外的不必要费用，但是如果你的应用环境会很频繁的有新的作业出现，过于快速的回收VM会造成过于频繁的创建新的VM，在VM创建和添加到LSF集群的过程中，不能运行作业，但仍会造成费用，所以过于频繁的不必要的创建过程也会导致额外的费用增加。我们可以在Google Cloud里面，根据刚才创建并且关掉的LSF计算节点VM来创建镜像，之后LSF需要更多节点来运算作业时，就可以从这个镜像创建VM，并作为动态节点加入到集群中进行工作了。

2024-02-18 10:01:16 857

原创 LSF实践专题（22）：如何在LSF中使用GPU资源

随着GPU技术的迅速发展和应用，后续LSF又增加了很多GPU新模式和使用方式的支持，比如独占或共享模式，nVidia的MPS支持，MIG技术的支持等，因此，在后续的使用上，LSF在提交作业的bsub命令上新增加了-gpu的选项，专门用于指定各种GPU的参数作为作业的需求。这些GPU相关的信息里，ngpus和ngpus_physical指的是GPU和物理GPU的个数，bsub命令中的-gpu选项里面可以用num指定该作业需要的GPU数量，这里的num指定的就是ngpus_physical。

2024-02-18 10:01:02 824

原创 LSF实践专题（21）：LSF应用（application）的概念和使用

我们没有设置任何作业级别的属性，只是指定了所属的application和queue，LSF提示application级别的资源需求超出了queue级别的需求中的限制，因为在queue1里面我们只为作业预留100MB内存，而application中需要为作业预留1024MB内存，LSF是先尝试实现queue级别的需求，所以按照queue级别的需求预留100MB内存后，就无法再预留1024MB内存了，就会拒绝作业的提交。如果您有关于HPC集群的具体需求，欢迎邮件沟通交流：[email protected]。

2024-02-18 10:00:45 677

原创 LSF实践专题（20）：LSF集群的资源限制功能

因为当作业运行以后，mbatchd服务进程会在下一个周期，根据收集到的作业运行情况和所使用的资源情况来检查是否需要映射到满足条件的limit中，所以要等一下，blimits的信息才会显示出作业相关的情况，等候的时间是一个mbatchd周期的时间，如果mbatchd非常繁忙，就有可能要等久一些，一般为了降低overhead，即使mbatchd没有负载，也会有一个默认10秒的周期间隔。通过各种不同条件的limit设定，可以让管理员更加有效的控制集群中各种计算资源的平衡，避免各个部门或项目之间对资源的过度争抢。

2024-02-18 10:00:18 1052

原创 LSF实践专题（19）：如何设置LSF队列

以芯片设计为例，我们可以根据团队来划分队列，例如分为前端FE、后端BE，再结合团队所在地点（假设有上海和北京两个设计团队），可以分为shfe（上海前端）、shbe（上海后端）、bjfe（北京前端）、bjbe（北京后端）这4个队列。上面这个例子定义了一个用于接受IC设计流程中“物理设计”计算任务的队列，名为pdq，并限制了用户，以及每个用户在队列上运行的job数（最多64个slots），每个作业最多运行10天（240小时），并通过Fairshare调度策略保证资源公平使用。我们先来看一下LSF队列的概念。

2024-02-05 09:24:00 1002 1

原创 LSF实践专题（18）：资源高级预留功能（Advanced Reservation）

这次我们没有用-m来指定需要的host名字，而是用-R来代替，-R的使用方法和提交作业时的-R类似，但是只需要用其中的select和order功能，LSF会根据-R的需求，从当前的集群中选出符合要求的节点，并从这些节点中选出数量满足-n需求的节点数量，来创建AR。brsvs命令会显示出AR的基本信息，因为我们创建时指定的是-n 4，并且默认是slot为单位，所以这个AR中的NCPUS就是0/4，斜线前面的0表示当前这个AR中有多少个slot已经被使用，现在没有任何作业使用，所以是0。

2024-02-05 09:23:41 809 1

原创 LSF实践专题（17）：资源回填（Backfill）调度策略

欢迎关注下方微信公众号【HPC常青园】，共同交流HPC集群管理经验和最佳实践。如果您有关于HPC集群的具体需求，欢迎邮件沟通交流：[email protected]。

2024-02-05 09:23:19 1386 1

原创 LSF实践专题（16）：reservation调度策略

通过bhosts和bhosts -l命令，我们也可以看到slots对应的reservation信息，RSV所对应的数字，就是有多少个slots被预留给作业了，同时，我们看到这个节点的状态也变成了closed，因为剩余的8个slots都被作业<522>预留了，剩余slots为0。我们看到作业<526>在等待了366秒后，拿到了原本预留给作业<522>的资源，并且开始运行（因为这时作业<522>预留的10分钟期限已经到了，LSF发现把资源给<526>可以让<526>先运行，于是重新进行了分配）。

2024-02-04 09:40:28 587 1

原创 LSF实践专题（15）：LSF队列优先级以及抢占功能初探

在LSF暂停作业时，会向作业发送一个SIGTSTP信号，并且将作业状态变成SSUSP（system suspend），表示被系统暂停，这时，最好是作业的应用能够捕获和处理SIGTSTP信号，否则，即使在LSF中，作业会被认为暂停了，并且释放了slots资源，但是在实际OS中，作业进程仍然在继续，并且不会释放CPU等计算资源。是指LSF自动将低优先级作业暂停（suspend），将空余出来的资源交给高优先级队列中的作业使用，等到高优先级队列的作业结束后，再将被暂停的作业恢复（resume）并继续运行。

2024-02-04 09:40:05 619 1

原创 LSF实践专题（14）：用户组的fairshare调度

我们看到，在q1/ug1/下，列出了用户tadmin1和 tadmin2，并且列出了tadmin1有两个正在运行的作业，tadmin2有一个，同时，这两个用户的作业所使用的CPU_TIME和RUN_TIME也被列了出来。通过群组成员间的SHARES，配合队列FAIRSHARE 的USER_SHARES，我们可以制定出很详细的资源分享策略，让不同的部门和成员根据需要按照不同的比例共享集群内的计算资源，避免某些部门或者成员因为作业提交的晚而无法及时获取到对应的资源。

2024-02-04 09:39:36 475 1

原创 LSF实践专题（13）：LSF集群中用户的简单分组和权限管理

如图所示，GROUP_ADMIN 可以用来给每个群组设置管理员，这个管理员只能作用于指定的用户群组，同时，这个管理员可以是这个群组的成员（GROUP_MEMBER）之一，也可以不是，如果不想为某个群组指定管理员，可以直接配置横线 “-”，表示没有群组管理员。对于普通用户来说，可以通过bjobs默认只会列出自己提交的作业，用bjobs -u user可以列出指定用户提交的作业, 也可以用bjobs -u all列出所有用户的作业，或者指定usergroup的名字，列出所有属于该群组的用户的作业。

2024-02-04 09:39:12 689 1

原创 LSF实践专题（12）：LSF中作业调度的基本顺序和fairshare简介

但是，实际使用中，有时候会遇到下面这样的问题：比如有A和B两个用户，用户A在9点的时候提交了500个作业，用户B在9点半提交了2000个作业，假设当前的集群，用户A和用户B的作业每个都要运行5分钟，而整个集群可以同时运行10个这样的作业。回到刚才用户A和用户B的例子中，因为9点半时，用户A已经使用了很多资源，所以当用户B的作业提交到LSF中时，用户B就能得到一个较高的优先级，这样，当有一批用户A的作业完成时，LSF就会优先调度用户B新提交的作业，而不必等待用户A的500个作业全部完成。

2024-02-04 09:38:49 1040 1

原创 LSF实践专题（11）：LSF10.1安装包不同模板参数探秘

mbschd服务负责调度整个集群中的所有作业，它会逐个检查所有作业，尝试为所有等待调度的作业找到满足需求的计算节点，如果尝试调度了某个作业但并没有找到合适的可用节点，就会为这个作业设置一个pending reason，让用户和管理员可以知道作业没有调度出去的原因，从而通过修改作业的资源需求，或者调整集群内的资源分配方案来尽可能让更多的作业可以运行，或是减少等待时间。因为high throughput模板的应用环境的特点是有大量的短作业，也就造成了相同时间段内，会产生大量的已完成作业的事件记录。

2024-02-04 09:38:19 568 1

原创 LSF实践专题（10）：LSF运行容器作业

在LSF上运行容器作业的好处在于，可以利用容器的技术特点，在保持计算节点系统版本不变的情况下，方便的运行需要不同系统版本支持的应用。在EXEC_DRIVER里配置context用户，上面例子中的“context[user(lsfadmin)]”表示lsfadmin是容器的context用户，我们需要在计算节点上将lsfadmin加到docker用户组里，确保lsfadmin用户能正常运行docker run和docker exec命令。可以看到，这个作业在提交时指定了需要在ubuntu的容器镜像上执行。

2024-02-04 09:37:49 521 1

原创 LSF实践专题（9）：LSF多集群的使用

例如欧洲的飞机制造商Airbus，就使用了多达几十个集群的LSF多集群。队列名称需要与提交集群lsfcluster1上的队列设置保持一致（lsfcluster1上发送队列设置了SNDJOBS_TO = recvqueue@lsfcluster2，因此lsfcluster2的接收队列名需要是recvqueue）；可以发现，lsfcluster1的sendqueueu队列里的作业1234被转发到lsfcluster2的recvqueue队列执行了，在lsfcluster2该作业的作业号是4321。

2024-02-04 09:37:25 1160 1

原创 LSF实践专题（8）：guarantee策略使用

guarantee策略除了可以为重要作业起到“保驾护航”的作用，还可以通过配置LOAN_POLICIES参数，将这些预留资源暂时“借”出去（例如借给短作业队列或者在预计时间内可以完成的作业），从而实现资源的充分利用。上述配置指定预留计算节点为host2，预留资源类型为slots，DISTRIBUTION = [mysla,2]指的是将该保障资源池中的2个slot预留给保障策略mysla，也就是预留给priority队列的作业。package：为重要作业预留slots与内存的组合资源，称为package。

2024-02-04 09:37:01 665 1

原创 LSF实践专题（7）：Job exit问题分析

如果无法确定是LSF的问题、系统环境问题还是应用程序自身的问题导致作业异常退出，也可以在LSF外面单独运行作业（即不通过bsub命令提交，而是直接在计算节点上运行应用程序），用相同的用户、环境变量和执行节点，运行参数相同的应用程序，看能否正常运行。如果作业退出码显示作业是被杀掉的，但是bhist又没有明显信息表明作业是被LSF杀掉的，也找不到被谁杀掉，可以使用Linux系统的auditd功能去分析进程是被谁杀掉的。这里提供几种常见的分析方法。如果是没有明确意义的退出码，可能是应用程序自身设置的特殊退出码。

2024-02-04 09:36:34 965 1

空空如也

空空如也