AI时代的服务器SSD管理难题

当前,以ChatGPT为代表的AI应用全面爆发,云端算法向大模型多模态演进,服务器作为AI技术实现的重要基础设施,提供AI关键算力,其需求量随之快速增长。据IDC数据显示,2023年中国AI服务器市场规模达到91亿美元,预计到2028年,其市场规模将超过124亿美元。

AI技术的发展也推动了存储资源的不断升级。据IDC数据显示,2023年全球数据量为129ZB,预测2027年将达到291ZB,其中生成式AI将在未来五年内产生100ZB的数据。AI应用需要频繁处理大量数据,工作负载密集。传统机械硬盘(HDD)无法满足AI高性能、高可靠需求,固态硬盘(SSD)凭借更高的读写速度、更低的延迟及故障率,成为AI应用的首选存储介质。

AI应用对服务器的可靠性、可维护性和易用性提出了更高的要求,这些要求通过服务器管理能力来承载。服务器由处理器、内存、硬盘三大件,及电源、风扇、网卡等其他部件组成。其中,三大件的管理尤为重要,主要包括:

  • 状态监控,如资源利用率、温度和性能等;

  • 故障检测,通过日常状态的监控、日志信息、蓝屏快照和录像回放等手段实现故障的发现、定位和解决;

  • 资源的回收分配,根据实际业务模型和资源需求实现智能分配与回收。

当前CPU管理主要依赖于BMC,内存管理相对简单,而硬盘管理复杂且措施较少;其余部件包括电源、风扇、网卡等管理则较为成熟。

现阶段服务器针对SSD以单盘管理为主,通过BMC或操作系统管理工具实现,如Western Digital的Data Lifeguard、三星SSD Manager等。以上两种方式均存在问题,难以满足AI应用对快速响应和高效管理的需求:

  • 硬盘管理复杂,操作需要具备一定的专业能力,数据易出错

  • 人工介入频繁,管理效率低,业务等待时间长

  • 监控手段有限,难以及时发现潜在问题和故障,导致错过维护窗口,从潜在风险变成数据事故

  • 传统SMART寿命和故障预警误差较大,硬盘故障检测和响应滞后,容易导致数据丢失和系统宕机,造成业务中断

 

以ChatGPT-3为例,其1750亿参数和数百TB训练数据依赖于大量服务器和SSD的支持。在训练过程中,数据集、模型检查点和中间结果都存储在SSD上。SSD故障可能导致以下问题:数据集不完整,影响模型的学习效果和准确性;关键模型检查点丢失,影响模型恢复训练的性能;中间结果丢失导致重复训练,影响训练效率。多块SSD故障甚至可能引发系统崩溃,导致业务中断,造成经济损失。

由此可见一款卓越的SSD,不仅需要具备优异的性能,还需要场景化的管理能力:

  • 故障快速定位定界,加速业务修复,降低维护成本;

  • 全方位故障预测及故障自愈,排除潜在风险,保证业务连续性;

  • 精准寿命预测及失效预测,及时预防,提升系统健壮性;

  • 智能调配资源,按需分配性能,降低TCO;

  • 交互界面友好,降低学习成本,提高管理效率。

    在AI迅速发展的背景下,传统的硬盘管理在可靠性、性能、能效和安全性等方面存在诸多短板,限制了企业的数据处理能力和存储效率。为应对这些挑战,需要引入先进的存储技术和管理手段,以满足不断增长的AI应用需求,更好地服务客户,持续创造价值。


关于云海芯科

四川云海芯科微电子科技有限公司是一家业界领先的数据存储解决方案提供商,团队核心成员深耕存储行业15+年,拥有成熟的存储产品研发上市经验。          

公司扎根国产存储,坚持产品和技术创新发展,拥有闪存管理、数据保护、硬件设计等多项SSD关键技术专利,具备存储产品设计到开发的全流程交付能力,已推出NVMe和SATA接口的全系列SSD产品,在HPC/HPDA、云计算、数据中心、虚拟化、人工智能等领域广泛应用,为金融、交通、通信、智能制造、互联网、能源等行业提供高稳定、高可靠的存储解决方案。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值