云轴科技ZStack Cloud云平台是遵循“简单、弹性、健壮、智能”的“4S”特性的私有云和无缝混合云产品。ZStack Cloud 5.1.8版本正式发布,从用户业务场景和实际需求出发,丰富和完善平台功能,推出一系列重要功能和多项改进,覆盖云主机、云网络、云存储、平台运维、灾备关联等多个功能模块,为用户提供更好的产品使用体验。
为帮助用户快速了解和使用,本期将介绍ZStack Cloud 5.1.8版本三个亮点功能。
全新GPU批量管理和运维监控
ZStack Cloud 5.1.8版本推出了革命性的GPU统一管理功能,为GPU运维人员和应用开发者带来极其显著的便利。最新版本提供了统一的GPU批量运维界面,支持物理GPU和vGPU的全方位监控与管理。
运维人员福音:
一站式批量管理
轻松查看集群和裸金属集群中所有GPU设备的数量、型号、集群分布情况、槽位及使用状态。
智能分类与排序
支持工作状态和使用分布统计,可按型号、实时温度、负载等指标筛选排序,快速定位高负载或故障设备。
实时监控
GPU使用率、显存使用率、功耗、温度等关键指标一目了然。
自动告警、一键定位
故障即时推送至企业微信/钉钉/邮件等丰富的通知平台,支持显示所属硬件信息,便于一键快速定位故障硬件,显著提高运维效率。
开发者助力:
GPU资源使用可视化
直观了解GPU资源利用情况和实时负载,优化算力分配和调度。
性能数据分析
丰富的监控数据助力性能调优和故障复盘分析。
丰富的GPU厂商兼容性
支持NVIDIA、AMD、Hygon DCU等多种GPU,适配多种主流操作系统。
无论是管理大规模GPU集群,还是开发高性能AI应用,运维者和开发者都能获得更好的体验和更高的效率,降低故障排查时间,让企业用户专注于创新和价值创造。
物理机硬件健康状态监控告警
全面监控
通过ipmi_exporter实时监控CPU、内存、磁盘、GPU等关键硬件组件状态,确保系统稳定运行。
精准定位
故障发生时,系统自动推送故障情况,可快速显著提升BMC排查效率,缩短故障解决时间。
告警标准灵活配置
提供默认和自定义报警器,支持自定义阈值和报警级别,满足不同场景需求。
多渠道及时告警
将硬件异常状态实时推送至邮件、钉钉、企业微信等平台,确保运维人员及时获取关键信息。
本功能不仅提升了用户的日常运维效率,更为业务连续性提供了有力保障。通过主动预警和快速响应,最大限度降低硬件故障对业务的影响。
云主机新增克隆网络配置和智能检测IP冲突
一键快速复制业务云主机完整配置和网络环境
克隆云主机操作新增支持复制完整的网络配置,并支持修改IP地址、启用停用网卡、增删网卡配置等操作,减少克隆后网络重新配置的手动操作,提升使用DHCP和静态IP环境下的操作效率,显著缩短环境搭建时间,提高效率。
自动为新建或克隆的云主机检查IP地址冲突
新版本将为所有新建或新克隆的云主机智能检测IP冲突,避免因IP重复导致的网络中断,从而降低网络配置错误的风险,增强云主机部署的灵活性和精确性,显著减少运维成本。
结语
云轴科技ZStack是产品化的云基础软件提供商,产品矩阵全面覆盖数据中心云基础设施。自研架构,自主知识产权,独立于VMware和OpenStack技术路线;坚持产品化道路,轻量级部署,敏捷交付,全面适配,在同等规模部署下获云计算性能测试国际标准SPECCloud全球第一。
ZStack Cloud 5.1.8着眼用户所需,除以上讲解的亮点功能外,还开发、改进了多个重要功能,力求覆盖更多业务场景,为用户打造更好的产品使用体验。
未来,ZStack会继续推出更多丰富好用的云计算产品功能,为用户创造价值。