自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(87)
  • 收藏
  • 关注

原创 Job运行很慢,从哪个指标去分析?

可以通过下面几个指标,来评估 LSF 作业运行时间的长短,并找出可能影响作业执行效率的因素。有研发反应Job运行很慢,从哪个指标去分析?

2024-07-14 15:36:14 142

原创 优先级高的用户提交了大量作业,是否会导致正常运行的仿真被杀掉

优先级高的用户提交了大量作业,是否会导致正常运行的仿真被杀么。

2024-07-14 15:31:18 121

原创 bsub -w和bwait功能一样吗

bsub -w和bwait功能一样吗?

2024-07-14 15:27:38 99

原创 Checkpoint log is not found or is corrupted. Job not submitted.

问题Checkpoint log is not found or is corrupted. Job not submitted.解决

2024-07-14 15:26:30 183

原创 在lsb.resource中设置特定用户使用特定机器运行作业失效

lsb.resources文件是用于定义和配置LSF的资源的,资源类型基本都是消耗型资源,需要定义谁去消耗这些资源((如MEM、SLOTS、JOBS));这个“谁”也就是使用者,可以包括应用程序、队列、用户、项目、主机等。在配置中只定义了使用者 USERS 、 Per_HOST,没有设置他们可以消耗的资源类型(如MEM、SLOTS、JOBS),所以这样设置是没有意义的,所以会感觉没有起作用。这个需求,使用Esub脚本是更合适的解决方法,配置和使用Esub脚本没有想象的那么复杂。

2024-07-14 15:13:23 146

原创 LSF集群中,一般资源分配是划分主机的还是按比例比较好?

1. 划分主机(Exclusive allocation):这种方式是将集群中的一台或多台主机完全分配给某一应用或用户,这样可以确保在该主机上的所有资源都专门服务于该应用或用户。这对于需要大量计算或存储资源的任务来说是很理想的,但它可能导致资源的使用效率不高,因为在该主机没有任务需要运行的时候,其资源就会被闲置。所以,没有固定的“更好”的答案,这完全取决于您的具体需求。划分主机的方式可能对于大型、资源消耗大的任务更合适,而按比例分配的方式对于需要做到资金和资源的效率最大化的情况更为适合。

2024-07-14 15:09:27 147

原创 bsub的jobarray提交不了,报bsub:not match

J 的正确用法,后面是需要加引号的。

2024-07-14 15:07:18 77

原创 让作业均衡调度到每个机器

让作业均衡调度到每个机器可以使用 JOB_ACCEPT_INTERVAL=1s。

2024-07-14 15:05:55 110

原创 Esub:如果特定用户没有指定执行机,就给用户指定特定队列

Esub:如果特定用户没有指定执行机,就给用户指定特定队列。

2024-07-14 15:02:01 70

原创 查找编写Esub需要的环境变量

在一个已有的Esub脚本中,添加“set -x”

2024-07-14 14:56:45 211

原创 LSF的服务挂了,但可以自动重启

Restart=always: 只要不是通过systemctl stop来停止服务,任何情况下都必须要重启服务,默认值为no。StartLimitInterval=0: 无限次重启,默认是10秒内如果重启超过5次则不再重启,设置为0表示不限次数重启。RestartSec=30: 重启间隔,比如某次异常后,等待30(s)再进行启动,默认值0.1(s)

2024-07-14 14:42:59 100

原创 负载限制(loadSched和loadStop)

loadSched 必须先满足条件,然后才能将作业分派到主机。如果 loadStop 满足条件,将暂挂主机上的作业。设置的是已使用达到多少,就暂挂主机上的作业。设置的是已使用达到多少,就暂挂主机上的作业。(lsload查看到的mem 2.6G)=可用于调度的内存(bhosts -l。)+预留的内存(bhosts -l中。此值,就拒绝接收作业。,就暂挂主机上的作业。

2024-07-14 14:37:35 404

原创 bsub的时候,回显实际提交到集群的命令

在esub脚本输出echo $LSB_SUB_COMMAND_LINE即可。

2024-07-14 14:24:51 96

原创 作业状态是UNKWN,让作业恢复运行

如果 job 的状态由 UNKWN 变成了 ZOMBI,需要再次执行 bkill -r jobid。2. 使用 bjobs -a | grep jobid 查看job状态。3. 让作业重新排队:brequeue -H -e jobid。4. 然后用 bswitch 新队列 jobid 切换队列。5. 最后再 bresume jobid 恢复这个作业。此时 job 状态会变成 EXIT。您当前的job状态是UNKWN。

2024-07-14 14:21:49 104

原创 loadStop的原因导致的SSUSP

Total内存值是可用来调度的可用内存,当前可用内存为 0M。 loadSched和loadStop的阈值是根据 Total 内存和节点内存来做限制的。 loadStop 50G,现在有大量作业SSUSP,说明之前某个时间点该节点内存可能有低于50G的时候,导致作业SSUSP,具体是否是这个原因引起的需要用 bjobs -l JobID 看下作业的详细信息。 如果是loadStop的原因导致的 SSUSP,根据loadStop设置的阈值,Total 值高于loadStop值后,将逐步恢复挂起的作业

2024-07-14 14:20:43 173

原创 控制节点作业数量

如果想控制节点作业数量,可以参考下面的链接,配置lsb.resources这个文件,指定可供资源使用者使用的最大作业数(JOBS)。

2024-07-14 14:17:09 92

原创 配置提交节点

如果使用lshosts查看lsf client的type、model是UNKNOWN,可以手动在lsf.cluster.<clustername>文件里为这个机子配置一个type。到$LSF_TOP/conf目录,编辑lsf.cluster.<clustername>文件。将下面配置中的server列设置成0,此节点就会作为Login节点。将lsb.hosts文件中的 MXJ设置为0,代表此节点无资源,不接收作业。复制上面的type类型到lsf.cluster.<clustername>文件中。

2024-07-14 14:13:32 287

原创 设置允许root 执行LSF命令

参考链接:https://www.ibm.com/docs/zh/spectrum-lsf/10.1.0?

2024-07-14 13:58:02 184

原创 System: Active job threshold reached. Retrying in 60 seconds

LSF提交作业提示:System: Active job threshold reached. Retrying in 60 seconds。kill部分优先级低作业,再重新提交作业。

2024-07-04 11:28:14 165 1

原创 源码安装Openlava 4.0

源码安装Openlava、源码打包成RPM包安装Openlava。

2023-10-20 15:36:20 608

原创 安装LSF

LSF安装条件、流程。

2023-10-20 14:49:54 1003

原创 Docker启动失败:Failed at step LIMITS spawning /sbin/modprobe

Docker启动失败:Failed at step LIMITS spawning /sbin/modprobe

2023-10-19 15:28:53 295

原创 error while loading shared libraries: libhwloc.so.5: cannot open shared object file: No such file or

slurmd: error while loading shared libraries: libhwloc.so.5: cannot open shared object file: No such file or directory

2023-06-08 17:10:36 636

原创 Group <ugroup2>: Pending job threshold reached. Retrying in 60 seconds...

Group : Pending job threshold reached. Retrying in 60 seconds...

2023-05-16 10:42:06 463

原创 $LSB_SUB_PARM_FILE

$LSB_SUB_PARM_FILE是一个环境变量,用于指定包含作业提交所需参数的文件路径。

2023-04-18 13:25:45 205

原创 系统负载和CPU利用率有什么区别?

系统负载(system load)和 CPU利用率(CPU utilization)是两个不同的概念。

2023-04-04 15:12:11 839

原创 createrepo --update无法更新repodata目录中的内容

createrepo --update无法更新repodata目录中的内容

2023-03-30 11:10:03 1019

原创 关于productid

productid文件的主要作用是:标识产品与内容集(repository)的映射关系。确保同步的仓库能够准确地反映订阅设置和产品组合。当同步多个产品时,确保相互之间具有正确的依赖关系。 在进行reposync同步操作时,确保正确使用productid文件将有助于更高效地进行仓库同步和管理。

2023-03-29 18:11:24 655

原创 reposync:Removing *.rpm due to failed signature check.

通常,这可以在`/etc/yum.conf`或`/etc/dnf/dnf.conf`中添加以下内容来允许安装未经过签名的RPM包,但这样做可能会降低系统的安全性: gpgcheck=0。RPM包的签名密钥不匹配或不存在。你可以通过rpm命令来导入签名密钥:sudo rpm --import /path/to/repokey.gpg。"Removing *.rpm due to failed signature check"提示表示在执行reposync同步命令后,某些RPM包的签名验证失败了。

2023-03-29 11:23:18 220

原创 reposync提示Removing *.rpm, due to missing GPG key

例如,如果您的 GPG 密钥 URL 是 `https://example.com/RPM-GPG-KEY-example`,您可以执行以下命令来导入密钥: ``` sudo rpm --import https://example.com/RPM-GPG-KEY-example ```如果您不想检查 GPG 签名,可以在 repo 文件中禁用 `gpgcheck` 选项,将其设置为 0: ``` gpgcheck=0 ``` 但是,这样做可能会导致安全风险,因为您将无法验证 RPM 包的完整性和来源。

2023-03-29 11:16:58 288

原创 yum repolist是如何获取软件包数量的?

YUM 会为每个软件仓库下载其元数据文件。`yum repolist` 是 YUM(Yellowdog Updater, Modified)软件包管理器的一个命令,用于显示已配置的软件仓库列表及各个软件仓库的软件包数量。因此,`yum repolist` 获取软件包数量信息的主要原理是通过读取系统配置中的软件仓库信息、下载并解析软件仓库的元数据文件,最终生成软件仓库列表及各个仓库的软件包数量。执行 `yum repolist` 命令时,YUM 会显示上述信息,包括软件仓库列表以及每个库中的软件包数量。

2023-03-29 11:10:49 1895

原创 Vmware+UOS-server-1050e虚拟机安装(含软件链接)

使用 Vmware 安装 Uniontechos Server 1050e。

2022-08-16 16:03:21 5159 4

原创 The cache is empty. You need to run “apt-file update“ first.

操作系统版本:uniontechos-desktop-20-professional-1040-amd64.isouniontechos-desktop-20-professional-1050-amd64.iso今日安装 apt-file 后,出现以下问题root@uniontech:~# apt-file search dgetFinding relevant cache files to search ...E: The cache ...

2022-05-25 15:20:44 875

原创 错误:主机不支持 任意虚拟化选项

kvm

2022-05-06 14:37:40 1553 1

原创 Could not open /dev/vmmon: xxx.Please make sure that the kernel module `vmmon‘ is loade

Linux vmware报错显示缺少 vmmon 内核模块,但是本地搜索没有相关文件,也不能直接加载此模块。解决办法:从官网从新下载 vmware 【链接:Download VMware Workstation Pro】,再重新安装,即可解决上述问题。uos:/home/wd/Downloads# lsVMware-Workstation-Full-16.2.3-19376536.x86_64.bundleuos:/home/wudan/Downloads# chmod...

2022-04-25 10:05:29 2152

原创 1. 了解C

1.扫盲1.1计算机工作的基本原理1.计算机的几个部件名称功能中央处理器(CPU)担负着绝大部分的计算工作随机访问存储器(RAM)作为一个工作区来保护程序和文件永久存储器一般是硬盘,即使在计算机关机时也能记下程序各种外围设备如键盘、鼠标、监视器,用来提供人与计算机之间的通信2.CPU简单的工作内容CPU从内存获取一个指令并执行这个指令,然后从内存中获取下一个指令并执行。一个千兆CPU可以在一秒内进行大约一亿次这样的操作,所以CPU能以惊人的速度

2021-12-29 12:25:29 975

原创 deepin/UOS1040密码破解(命令行删除密钥环)

环境说明系统版本:uniontechos-desktop-20-professional-1040_amd64百度网盘系统链接: https://pan.baidu.com/s/1Z61lFL1l8Vlj7J86wWEkTA 密码: 1040用户名:uos1040操作步骤在grub的引导装载程序菜单上,键入“e”进入编辑模式。 找到linux /vmlinuz-...所在行,ro改为“rw”,并在此行尾添加“init=/bin/bash”,如图1所示。添加完成后按快捷键“Ctrl+X.

2021-03-16 11:38:49 5167 10

原创 wine —— windows软件移植到Linux系统

windows软件移植到Linux —— wine导读:wine是我们在Linux下运行部分Windows应用程序必不可少的工具。接下来主要了解wine服务的工作原理、wine服务的部署以及windows应用程序在统信UOS操作系统中的安装。一、wine服务简介1、wine是什么?Wine (“Wine Is Not an Emulator” 的首字母缩写)是一个能够在多种 POSIX-compliant 操作系统(诸如 Linux,macOS 及 BSD 等)上运行 Wind.

2020-12-18 15:56:18 12200 1

原创 UOS Bind9 反向解析故障

UOS bind9反向解析出现以下问题:root@uos1:/etc/bind# host 192.168.200.201201.200.168.192.in-addr.arpa has no PTR record相关配置文件内容如下:root@uos1:/etc/bind# cat /etc/resolv.conf # Generated by NetworkManagersearch public#nameserver 192.168.200.1#本机IP为192.168

2020-12-09 15:41:52 753 1

原创 UOS无法安装软件-更改软件源或激活

今天在使用UOS虚拟机安装nginx时出现以下问题:root@uos1:~# apt -y reinstall nginx正在读取软件包列表... 完成正在分析软件包的依赖关系树 正在读取状态信息... 完成 不能重新安装 nginx,因为无法下载它。升级了 0 个软件包,新安装了 0 个软件包,要卸载 0 个软件包,有 0 个软件包未被升级。有 2 个软件包没有被完全安装或卸载。解压缩后会消耗 0 B 的额外空间。正在设置 nginx-full (1.14..

2020-12-04 09:49:25 10224

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除