关于LSF的高级用法

1、通过脚本查询Job的利用率和所占的Core数,从而管理低利用率的Job。

•通过脚本查询JOB的利用率和所占的CORE数,从而管理低利用率的JOB。
•低CPU利用率的JOB要特别小心,最可能存在2个原因:JOB缺少LICENSE导致等待;存储IO过高,导致JOB一会儿用CPU,一会儿不用。

2、通过BSTAT脚本,同时看到某台服务器的LSLOAD信息和BHOSTS,LSHOSTS相关信息

•建议显示一起上相关信息,可以指定某台主机或者某个主机组。

3、配置Explorer,使用ElasticSearch来存储Job相关信息,可以快速查询某个用户、某个项目,在某段时间内对服务器的使用情况。

4、允许Job可以resize

•LSF可以通过LSB.APPLICATIONS 引入特定设置,允许用户的JOB,可以被RESIZE。比如用户不确定自己提交多少个CPU,就可能一次提交16个CPU,实际上跑起来才用4个。那么我们能否修正,让用户只占用4个CPU即可。

5、自动绑定core,避免NUMA节点的时候,Job在多个Core上漂移,一般我们在short和normal的队列,只允许一个Job用一个CPU core

6、配置严格的LDAP群组提交权限限制

•首先,可以通过LINUX群组跟项目对应的方式,将每个项目对应多个LINUX群组。比如某个PROJECTA,可以有UG-PROJECTA-DESIGN UG-PROJECTA-VERIFY UG-PROJECTA-COT几个群组。•然后,可以通过BSUB -G UG-PROJECTA-XX来严格限制LINUX的群组跟项目提交权限统一,只有加入了对应的UG-PROJECTA-XX的用户,才能利用这个-G UG-PROJECT-XX来提交JOB,这样可以跟踪到某个项目使用了多少资源,哪些用户在用什么群组提交JOB。
•这里需要配置3个地方:ETC/EGROUP、LSB.USERS 、ETC/ESUB

7、配置guarantee资源池

•保障资源,在LSF内,主要有2种方式存在:SLOTS GUARANTEE和HOSTS GUARANTEE两种。分别对应的方式是,按SLOTS配置,某个项目,需要多少个CORE,一般就配置这种保障;项目另外一些情况,需要按HOST来保证,尽量让自己的项目能够独占某台服务器。HOSTS保证类似给某个项目给出一些专用服务器,但是这些服务器是动态提供的,而不是固定允许某个用户一直占用。因为固定提供的专用机,非常难以管理,利用率也非常低。

•两种保障方式,使用场景不同,一般SLOTS保障,用于大量验证的情况,比如模拟的模块SPICE仿真,数字的REGRESSION验证。后端K库也可以用SLOTS保障。而HOSTS保障,经常用于综合,STA,BES,PD&PR等场景。

8、配置DISPLAY变量,让其始终指向我们的ETX桌面

•准确地说,这个配置不是LSF的,但是在我们IC设计中,却经常会遇到一些比如BSUB无法提交交互任务的情况,如何解决呢?其实思路很简单。就是在.CSHRC增加一个SOURCE CSHRC.DISPLAY,然后在CSHRC.DISPLAY这个文件内,我们在LOGIN服务器上,将DISPLAY变量写入到.DISPLAY文件,然后在其他服务器上会首先去读取这个文件内容,然后再设置一下DISPLAY变量即可。

9、LSF设置elim信息,比如/local磁盘剩余大小

10、配置内存不足自动挂起Job

•如果不采用LSF,我们经常会遇到服务器因为内存不足,服务器挂死的情况。因为内存不足,JOB还在跑,不断申请新的内存,最后就是使用SWAP,进而很慢,逐步走向服务器死机状态,导致这台服务器上跑的所有JOB都挂掉。如何避免这种情况呢?采用LSF就简单多了。

•其实不止内存,还有其他比如/TMP空间不足,服务器瞬时负载过大等情况。

以上便是关于LSF的一些高级用法的介绍,希望能给大家带来帮助,想要了解更多LSF相关资讯,可搜索:江苏信瑞一芯科技有限公司~~~江苏信瑞一芯科技有限公司是国内IBM的银牌代理商、netapp的金牌代理商。在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: LSF(Load Sharing Facility)是一种用于资源管理和作业调度的软件工具,其中的LSF license调度是指对LSF软件的许可证的管理和调度。 在使用LSF软件时,用户需要获得相应的许可证才能正常使用软件的全部功能。而LSF license调度就是对这些许可证的分配和调度,以确保每个用户都能够按照自己的需求使用软件。 LSF license调度通常涉及以下几个方面: 1.许可证分配:LSF管理员会根据用户的需求和优先级,将可用的许可证分配给不同的用户。通常将许可证分配给具有高优先级或需求的用户,以确保他们能够在需要时优先使用软件。 2.许可证回收:当一些用户不再需要使用LSF软件时,拥有许可证的管理员可以及时收回许可证,以便重新分配给其他用户。这样可以最大限度地提高许可证的利用率和效率。 3.许可证管理:LSF管理员还需要定期监控和管理许可证的使用情况,确保许可证的数量和使用情况与实际需求相符。如果发现许可证不足或者存在滥用的情况,管理员需要及时采取相应的措施。 总之,LSF license调度是对LSF许可证进行合理分配和管理的过程,旨在最大程度地满足用户的需求,提高许可证的利用效率,确保软件系统的正常运行。 ### 回答2: LSF(Load Sharing Facility)是一个用于集群计算的作业调度和管理系统,可以帮助高性能计算(HPC)环境下的任务有效地分配和使用资源。在LSF中,license调度是指对软件许可证资源的优化调度和管理。 在一个HPC环境中,常常需要使用各种不同的软件工具和库,这些工具和库通常需要相应的许可证才能合法使用。而软件许可证往往是有限的,所以对许可证资源进行调度是非常重要的。 LSF通过对许可证的分配和释放进行智能调度,以最大程度地利用许可证资源并最小化等待时间。它根据作业的需求和许可证的可用性,动态地分配许可证给需要它们的作业,尽量避免许可证的过度分配或浪费。同时,当一个作业不再需要许可证时,LSF会将其释放,以便其他作业能够利用这些许可证资源。 LSF还可以通过许可证的限制和优先级设置,来确保重要的作业能够获得所需的许可证资源,而次要的作业则可能会被推迟或降低许可证的使用。这样可以确保关键任务的顺利执行,同时最大限度地提高整个集群的利用率。 总而言之,LSF的license调度功能是为了合理、高效地管理和调度许可证资源,以确保HPC环境中的作业能够得到所需的许可证,并在最短的时间内完成任务。这样可以提高计算集群的利用率,提升工作效率和系统性能。 ### 回答3: LSF(Load Sharing Facility)是一种用于分布式计算环境的作业调度和资源管理软件。在LSF中,license调度是指通过合理管理和分配软件许可证(license),以确保系统中所有用户能够合理使用软件许可证资源。 LSF License调度的主要目标是实现最大化利用软件许可证资源,同时确保用户的需求得到满足。为了实现这一目标,LSF会根据用户的需求和系统的实际情况进行许可证资源的分配和调度。 LSF License调度的过程通常包括以下几个步骤: 1. 许可证资源的监控和管理:LSF会监控系统中可用的许可证资源数量和使用情况,并对许可证资源进行管理。这包括许可证资源的获取、分配、释放和回收等操作。 2. 许可证资源的分配:根据用户提交的作业需求和当前系统的状况,LSF会决定如何分配许可证资源给不同的作业。通常,LSF会采用一定的算法和策略来进行许可证资源的分配,例如根据作业的优先级、作业的资源需求和系统的负载情况等。 3. 许可证资源的调度和冲突处理:由于许可证资源是有限的,可能会出现作业之间对许可证资源的竞争。LSF会根据系统的策略和规则来调度许可证资源的分配顺序,并解决因许可证资源冲突而导致的调度问题。 4. 许可证资源的回收和释放:当作业使用完许可证资源后,LSF会将这些许可证资源回收并释放给其他等待的作业使用。这样可以确保系统中许可证资源的充分利用。 总之,LSF License调度是为了合理分配和管理系统中的许可证资源,以实现最大化的资源利用和满足用户的需求。通过LSF License调度,可以提高系统的效率和资源利用效率,同时提升用户的使用体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值