- 博客(14)
- 收藏
- 关注
原创 SkyForm任务调度系统中的图形任务显示:跨平台X11转发实战指南
本文介绍了SkyFormAIP任务调度系统对图形类任务的支持机制。通过X11转发技术,系统能够将远程计算节点的图形界面回显到本地终端,支持EDA、仿真可视化等图形应用。文章详细说明了本地XServer设置、SSH连接参数(-X/-Y)、远程服务器配置要求,并重点讲解了SkyForm特有的bsub-XF功能,可自动管理多节点环境下的图形显示回传,无需手动设置DISPLAY变量。此外还提供了图形转发验证方法和使用小贴士,展示了SkyForm在简化图形任务调度方面的优势。
2025-10-20 16:40:47
809
原创 SkyForm AIP GPU 调度与计算加速———面向AI、EDA、CAE的智能GPU资源编排平台
SkyForm AIP 能够自动检测集群中所有节点的 GPU 设备及其关键参数(型号、显存、温度、负载等),无需人工配置,即可实现 GPU 资源的统一管理与可视化监控。AIP 支持多种 GPU 作业类型,包括单节点与多节点的 GPU 并行任务。无论是AI训练、EDA仿真,还是科学计算,AIP都能为GPU资源提供自动发现、灵活调度、智能共享与硬件级隔离的全栈支持。AIP 会自动为不同型号的GPU 生成独立的资源名,如gpuGeForceRTX、gpuGeForceGT 等,便于作业提交时精准调度。
2025-10-15 15:25:45
774
原创 虚拟机网络配置问题——SkyForm 应用平台使用过程中的一次排障案例
Windows虚拟机快照恢复后无法与Linux虚拟机互通,排查发现两个关键问题:1.虚拟机绑定在不同网桥(vmbr0和vmbr1);2.子网掩码不一致(/16和/24)。解决方案包括:统一绑定到vmbr1网桥、调整子网掩码为/24,并等待FDB转发表更新。该案例揭示了虚拟化环境中网络通信需确保网桥一致性和子网配置匹配,同时需考虑FDB缓存机制对网络恢复的影响。
2025-10-09 15:12:30
419
原创 压缩速度优化 —— SkyForm 应用平台用户体验提升
摘要:SkyForm应用平台针对用户反馈的大规模数据压缩效率问题,提出优化方案。通过集成多核并行压缩工具pigz、提供灵活压缩等级选择,并支持分布式压缩调度,将压缩耗时从小时级缩短至分钟级。该方案在HPC/EDA/AI场景中实现了压缩效率与质量的平衡,显著提升数据处理效率。平台体现了敏捷调度与算力赋能的优势,为用户提供高效的数据处理解决方案。
2025-09-25 17:59:33
346
原创 Ubuntu 上SkyForm调度器(AIP)man 命令执行问题的解决方案
在Ubuntu系统中部署完SkyForm调度器(AIP)后,许多用户会通过man aip命令查看官方手册以熟悉功能。但实际操作中却遇到了棘手情况:执行该命令后终端直接返回错误提示,无法正常调出帮助文档
2025-09-17 11:20:25
996
原创 SkyForm 应用集成平台——容器作业调度与 Harbor 镜像仓库的一体化实践
摘要:SkyForm应用集成平台在调度Harbor容器作业时遇到数据库迁移异常问题,Harbor-core因数据库版本不匹配无法启动。通过分析发现PostgreSQL中记录的版本号高于镜像支持版本,采用最小侵入式修复策略:调整数据库版本号至140并清理异常记录,最终成功恢复服务。该案例展示了SkyForm平台在容器环境中的智能调度、深度集成和快速故障定位能力,形成了可复制的标准化排障手册,为企业提供可靠的容器化解决方案。
2025-09-10 16:00:36
282
原创 Anaconda 下载与安装指南(Linux版)|Python环境配置一步到位
Anaconda 是一个开源的 Python 发行版,包含了 conda、Python 等180多个科学包及其依赖项。它可以帮助我们轻松管理Python环境、安装第三方库,避免版本冲突问题,堪称Python开发者的“瑞士军刀”。通过本文的步骤,你应该已经成功在Linux系统上安装好了Anaconda。接下来就可以愉快地创建Python环境、安装各种科学计算包了!Anaconda 的强大之处在于它的环境管理能力,建议每个项目都创建独立的环境,避免包版本冲突。你在安装Anaconda过程中遇到过什么问题?
2025-09-05 15:51:30
800
原创 【保姆级教程】Prometheus + AlertManager 全方位监控告警系统部署指南
本文详细介绍了从零搭建企业级Prometheus监控告警系统的完整方案。主要内容包括:Prometheus和AlertManager的核心功能说明,各组件(node_exporter、mysqld_exporter等)的下载安装步骤,系统服务配置方法,以及Prometheus与各监控目标的整合配置。文章还提供了常见问题排查建议,最终形成一套包含服务器、数据库、缓存等全方位监控的解决方案。适合运维工程师、SRE和DevOps人员参考使用,为系统稳定性提供有力保障。
2025-09-04 17:09:35
1079
原创 手把手教你使用StorCLI管理RAID卡|Broadcom MegaRAID实战指南
作为一名运维工程师或是系统管理员,RAID卡管理绝对是必备技能之一。今天给大家分享一款强大的RAID控制器命令行管理工具——StorCLI,无论是物理服务器还是虚拟化环境,都能轻松搞定!
2025-09-01 16:26:15
1259
原创 精准定位 AppArmor 限制,保障调度器 man 命令在 Ubuntu 系统下顺利运行
在调度平台部署过程中,用户通常依赖 man 命令查看各类命令文档及用法说明。但在 Ubuntu 系统中,某些安全机制可能会意外阻碍此类操作,影响用户体验。本篇将介绍一个典型问题的发现与解决过程,展现我们团队在复杂系统环境下的快速响应与问题定位能力。
2025-08-28 14:31:50
484
原创 解锁Linux新技能:用命令行玩转百度网盘文件下载与管理
本文将通过命令行工具bypy,解锁无需图形界面的网盘操作方案——从环境搭建、授权管理到批量传输,助你构建可嵌入自动化任务的高效文件管道,特别适用于远程服务器备份、CI/CD物料同步等企业级需求。
2025-08-22 14:11:09
973
原创 LDAP 客户端缓存清理机制深度解析与实战经验总结
在企业级集群或大型科研计算平台中,LDAP 是广泛使用的集中认证机制。但在运维过程中,经常遇到一个被忽略却至关重要的问题—— LDAP 客户端缓存清理不彻底,可能会导致用户信息“假消失”或“假存在”的异常现象,从而带来管理混乱或安全隐患。
2025-08-20 15:03:41
526
原创 天数GPU卡部署DeepSeek-R1-Distill-Qwen-32B
在人工智能技术迅猛发展的今天,凭借其卓越的自然语言处理与多模态理解能力,正成为全球AI赛道的一匹黑马。作为DeepSeek不仅实现了与国际顶尖模型比肩的文本生成与逻辑推理性能,更以开放的架构设计和全流程自主可控优势,为中国企业的智能化转型提供了安全可靠的基础设施。与此同时,以天数智芯为代表的国产GPU卡异军突起,其旗舰产品天数卡通过创新的计算架构与软件生态,,为国产大模型的高效部署提供了坚实的硬件底座。
2025-08-18 10:43:44
2267
原创 任务调度系统中的 LDAP 用户认证体系与操作系统 PAM 模块的关系
系统通常同时使用 /etc/pam.d/system-auth 与/etc/pam.d/password-auth,并由多个服务分别include 这两个文件。此行可添加至 /etc/pam.d/common-session或 /etc/pam.d/sshd 中,确保无本地用户记录时也能自动建家目录。尤其在多租户、高安全要求的场景中,LDAP+PAM构建的统一认证体系成为任务调度系统中不可或缺的基石。然而,传统的本地 /etc/passwd 与 /etc/shadow 认证机制,在多节点环境下。
2025-08-13 15:25:38
443
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅