HPCinsights内存预测，助力HPC集群资源优化-CSDN博客

本文链接：https://blog.csdn.net/richycn/article/details/136179108

功能背景

实现原理

功能背景

随着高性能计算技术的不断发展，越来越多的科学研究、工程设计领域开始使用高性能计算集群来解决计算问题。而在使用集群进行作业提交时，如何指定内存资源是许多用户经常会关注的问题。指定内存过大会造成内存资源浪费，而指定内存过小则可能导致OOM（Out Of Memory），甚至会引起服务器宕机。

传统方式下，内存调整往往依赖于个人经验或试错，既费时又效果有限。为了解决这些问题，HPCinsights推出了内存预测功能。

实现原理

当用户提交作业时，HPCinsights会通过esub脚本获取作业特征并记录到数据库中，运用机器学习算法对数据进行汇总、分类和学习，构建出作业模型。

当用户再次提交类似作业时，HPCinsights会根据作业的特征匹配相同类型的作业模型。对于每个匹配上的模型都会对应一个预测内存值，通过投票算法，最终会为作业预测一个相对合理的内存值。

实现原理流程图：

配置方法

配置内存预测功能主要涉及到：启用esub环境变量、拷贝esub脚本和默认使用内存预测。当然，也可以根据自己的需求定制化修改esub脚本。比如指定某些队列使用内存预测功能、指定某些用户使用内存预测功能等等，从而更灵活地实现给作业指定内存的目的。

启用esub环境变量

在$LSF_ENVDIR/lsf.conf配置文件中添加参数LSB_SUB_COMMANDNAME=Y，以便能够在esub脚本中使用LSB_SUB_COMMAND_LINE环境变量。

[lsfadmin@node01 ~]$ vi $LSF_ENVDIR/lsf.conf
LSB_SUB_COMMANDNAME=Y 

[lsfadmin@node01 ~]$ lsadmin reconfig

拷贝esub脚本

在hpcinsights/config目录下有内存预测相关的esub脚本，需要把config/esub.insights*拷贝到$LSF_SERVERDIR目录下。

[lsfadmin@node01 hpcinsights]$ sudo cp config/esub.insights* $LSF_SERVERDIR/

默认使用内存预测

如果想让用户提交作业时默认使用内存预测功能，还可以在$LSF_ENVDIR/lsf.conf配置文件中添加参数LSB_ESUB_METHOD=insights-silence，以实现默认使用内存预测功能的目的。

[lsfadmin@node01 ~]$ vi $LSF_ENVDIR/lsf.conf
LSB_ESUB_METHOD=insights-silence

[lsfadmin@node01 ~]$ lsadmin reconfig

使用演示

内存预测功能支持交互式和非交互式两种方式：

交互式的esub脚本（esub.insights）可以让用户选择是否使用预测值。
非交互式的esub脚本（esub.insights-silence）默认使用预测值。

交互式

[lsfadmin@node143 ~]$ bsub -a insights sleep 1000
esub: 0MB allocated, 2MB predicted, use predicted value? [y/n] y
Job <517275> is submitted to default queue <normal>.

[lsfadmin@node143 ~]$ bjobs -l 517275
Job <517275>, User <lsfadmin>, Project <default>, Status <RUN>, Queue <normal>,Command <sleep 1000>, Share group charged </lsfadmin>, Job Description <ALLOC_MEMORY_USER=0>, Esub <insights>
Sun Jul 30 14:50:37: Submitted from host <node143>, CWD <$HOME>, Requested Resources <rusage[mem=2]>;
Sun Jul 30 14:50:37: Started 1 Task(s) on Host(s) <node144>, Allocated 1 Slot(s) on Host(s) <node144>, Execution Home </home/lsfadmin>, Execution CWD </home/lsfadmin>;

 SCHEDULING PARAMETERS:
        r15s   r1m  r15m   ut      pg    io   ls    it    tmp    swp   mem
 loadSched   -     -     -     -       -     -    -     -     -      -     10M 
 loadStop    -     -     -     -       -     -    -     -     -      -      -  

 RESOURCE REQUIREMENT DETAILS:
 Combined: select[type == local] order[r15s:pg] rusage[mem=2.00]
 Effective: select[type == local] order[r15s:pg] rusage[mem=2.00]

非交互式

[lsfadmin@node143 ~]$ bsub -a insights-silence -R "rusage[mem=10]" sleep 1000
esub: 10MB allocated, 2MB predicted, predicted value is used.
Job <517277> is submitted to default queue <normal>.

[lsfadmin@node143 ~]$ bjobs -l 517277
Job <517277>, User <lsfadmin>, Project <default>, Status <RUN>, Queue <normal>,Command <sleep 1000>, Share group charged </lsfadmin>, Job Description <ALLOC_MEMORY_USER=10>, Esub <insights-silence>
Sun Jul 30 14:54:38: Submitted from host <node143>, CWD <$HOME>, Requested Resources <rusage[mem=2]>;
Sun Jul 30 14:54:38: Started 1 Task(s) on Host(s) <node144>, Allocated 1 Slot(s) on Host(s) <node144>, Execution Home </home/lsfadmin>, Execution CWD </home/lsfadmin>;
Sun Jul 30 14:54:52: Resource usage collected.
                     MEM: 2 Mbytes;  SWAP: 0 Mbytes;  NTHREAD: 4
                     PGID: 10603;  PIDs: 10603 10604 10606 

 MEMORY USAGE:
 MAX MEM: 2 Mbytes;  AVG MEM: 2 Mbytes

 SCHEDULING PARAMETERS:
       r15s   r1m  r15m   ut      pg    io   ls    it    tmp    swp    mem
 loadSched   -     -     -     -       -     -    -     -     -      -     10M 
 loadStop    -     -     -     -       -     -    -     -     -      -      -  

 RESOURCE REQUIREMENT DETAILS:
 Combined: select[type == local] order[r15s:pg] rusage[mem=2.00]
 Effective: select[type == local] order[r15s:pg] rusage[mem=2.00]