AI架构设计1:概览

AI平台与泛AI平台

AI平台的架构涉及的方面很广,按照系统领域设计可以分为应用服务域、策略管理域、知识管理域、AIops域和算力支撑域。按照基础架构的角度可以分为算力、存储、网络包括GPU集群的调度与搭建。  

从业务架构的角度而言,泛AI平台的范围从数据清洗之后开始,覆盖动态数仓、语料库管理、模型训练、模型管理、应用框架、模型部署以及资源调度的整个周期。此处对于数据采集、清洗、治理和加工则不在这个平台范围之内。大模型犹如哪吒一般,成熟的搜索引擎技术和知识图谱技术则犹如混天绫和风火轮。设计得当的LLMOps平台则为乾坤圈为其大幅提升整体的武力值。          

传统的云原生更加关注的是服务动态扩容,资源池以及一键发布等功能,携带GPU资源的AI平台则优先要考虑GPU的资源利用效率,确保在线任务与近离线任务之间的合理调度。再者也要考虑不同公司的GPU集群配置,这些配置有可能存在单机单卡、多机多卡、异构卡等。最后,需要考虑在故障和异常的场景下如何快速恢复。   

AI平台的架构设计和传统云原生的架构设计稍微有点区别,多了一层GPU的资源调度,所以在设计量产架构的时候就需要考虑额外的因素。为了更好的讲述,专栏将会如何构架高效的GPU集群架构入手,阐述GPU集群在算力调度、存储和网络通讯中架构的实际运用。分析设计面临的挑战以及如何应对。让读者明白了之后,在回到AI平台的架构设计,以便有更加立体认知。

目前Nvidia的研发生态十分成熟与完善,而且具有很好的普适性,因此本文将以Nvidia为例,其他显卡的分析将放在额外的文章分析。   

  • 6
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值