大模型实战:万亿赛道 !AI 服务器设计及解决方案 2024

1. 生成式AI的算力需求与挑战

自OpenAI的ChatGPT发布以来,生成式AI技术获得了广泛关注,一系列开创性研究成果相继发布,引领了人工智能的新一轮创新浪潮。

AI大模型是生成式AI的关键底座,得益于泛化能力强、长尾数据依赖性低以及下游模型使用效率高,大模型被认为具备了“通用人工智能AGI”的雏形。

相比传统AI模型,大模型的训练使用了更庞大的数据,具有更巨量的模型参数和更发散的下游应用场景,对全社会生产力和生产效率的提升、传统产业转型升级具有重大的价值潜力。因此,全球范围内已经掀起了一场生成式AI革命,政策和资本驱动生成式AI技术加速商业化落地。

AI大模型发展需要庞大的AI算力支撑,大模型往往采用无标注、自监督的训练方法,使用海量数据做超大规模的模型训练,因而对于算力的需求和传统的模型训练相比也出现了3~4个数量级的提升。

当前语言大模型的参数量已达千亿以上,训练数据集的规模也达到了TB级别。业界典型的自然语言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。

如果用“算力当量”(PetaFlops/s-day,PD),即每秒千万亿次的计算机完整运行一天消耗的算力总量来表征大模型的算力需求,具有1750亿参数的GPT-3模型的训练算力需求为3640PetaFlop/s-day。

参数量为2457亿的源1.0大模型训练算力消耗为4095PetaFlop/s-day。

大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。

在全球科技企业加大投入生成式AI研发和应用的大背景下,配置高算力AI芯片的AI服务器需求也不断高涨。

随着市场对AI计算力需求的不断攀升,全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化趋势愈发显著。

但因为各厂商在AI开发中采用了不同的技术路线,导致芯片的接口、互连、协议上互不兼容,而专有AI计算硬件系统开发周期长、研发成本高,严重阻碍了新型AI加速器的研发创新和应用推广。

全球开放计算项目组织OCP发起开放加速规范OAI,但在推向产业落地的过程中,依然存在大量的定制化工作以及现有标准未能完全覆盖的领域,包括多元AI芯片适配、AI算力资源管理和调度、数据整合及加速、深度学习开发环境部署等多个方面。

2. 开放加速规范AI服务器开发背景

最初的深度学习模型通过单张加速卡或者多卡间PCIe P2P通信的方式来满足模型训练和推理的计算需求。

随着AI大模型的快速发展,加速卡间通信的数据量越来越多,仅仅通过PCIe P2P通信已经无法满足超大规模深度学习模型的通信需求。

另一方面,单张AI加速卡的功耗随算力提升逐代显著增加,PCIe物理形态难以满足高功耗芯片的供电和散热需求。

NVIDIA公司推出了非标准PCIe CEM形态的NVLINK接口的GPU 加速卡,从而支持更高的功耗和更大的卡间互连带宽。

但是,由于缺乏统一的业界规范,不同厂商的AI加速芯片无论在结构上还是电气特性上都存在显著差异,导致不同芯片需要定制化的系统硬件平台承载,带来更高的开发成本和更长的开发周期。

2019年OCP成立OAI小组,对更适合超大规模深度学习训练的AI加速卡形态进行了定义,目的是为了支持更高功耗、更大互连带宽AI加速卡的物理和电气形态,同时为了解决多元AI加速卡形态和接口不统一的问题。

随后,为了进一步促进OAI生态的建立,OAI小组在OAM的基础上统一了AI加速卡基板OAI-UBB(Universal Baseboard)设计规范。

OAI-UBB规范以8张OAM为一个整体,进一步定义了8xOAM的Baseboard的主机接口、供电方式、散热方式、管理接口、卡间互连拓扑、Scale Out方式。

2019年底,OCP正式发布了OAI-UBB1.0设计规范,并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台,无需硬件修改即可支持不同厂商的OAM产品。近年来,以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器,开展了丰富的产品和应用实践,验证了开放加速技术的可行性,逐步构建起开放加速计算的生态体系。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

3. 开放加速规范AI服务器发展历程

2019年9月,在阿姆斯特丹举行的开放计算项目(OCP)区域峰会上,时任OCP基金会首席技术官Bill Carter展示了由浪潮信息研发的通用加速器基板UBB,采用高密布线和22层板层实现单板支持全互连FC(Fully-connected)和混合立方互连HCM(Hybrid Cube Mesh)两种拓扑形态,支持多种互连协议。

2019年11月,首个AI开放加速计算系统MX1发布,21英寸系统可支持多种符合OAM规范的AI加速器,采用了高带宽、双供电等技术,互连总带宽达到448GB/s12V供电最大功率300W,54V供电最大功率450W-500W,单节点设计支持8颗AI加速器,支持通过高速互连Scale-out扩展支持到32颗AI加速器,满足超大规模深度神经网络模型的并行训练需求。

2021年,浪潮信息发布开放加速AI服务器NF5498A5,采用19英寸4U高密异构加速计算架构,单节点集成8颗54V 400W开放加速计算模块,2颗64核 280W高性能CPU,卡间互连带宽448 GB/s。

2022年,浪潮信息发布液冷开放加速AI服务器,并成功部署千卡级智算中心集群系统。技术创新的最终目标是提升全社会生产力和生产效率,通常在产业发展初期,通过协同平台对多元市场主体的标准化是技术规模化应用的必要前提。

实践证明,统一开放的产业标准会有效降低技术获取成本,推动创新技术普及,为产业发展赋能提速。当前,生成式AI技术和产业发展推动AI算力需求高速增长并迅速扩展,新兴的AI加速芯片创新亟需坚实的AI服务器系统平台支撑。

4. 开放加速规范AI服务器设计指南

4.1 设计原则

4.1.1 应用导向原则

无论是加速卡的设计还是系统的设计都要聚焦实际应用场景,在充分考虑业务特点、模型特征、部署环境的基础上,以提供“用得了”、“用得起”、“用得好”的解决方案为目标,自上而下完成开放加速计算系统的设计规划,避免过度冗余设计和一味追求性能带来的时间、空间、资源和成本的浪费,最终实现高效适配、高效部署,节省产业和社会总成本。

4.1.2 多元开放原则

兼容适配更多技术体系,通过开源、开放的方式建立可兼容底层硬件差异的异构协同开发平台,突破异构算力适配、异构算力调度等关键技术,加速基础软件、商用软件和开源软件的生态构建,做到从硬件到软件、从芯片到架构、从建设模式到应用服务开放化、标准化,打通人工智能软硬件产业链,从而壮大开放加速计算技术和产业生态。

4.1.3 绿色高效原则

随着AI训练芯片的功耗不断增长,用于AI训练的机器单机柜功率密度将大幅增加,传统的风冷模式已无法满足制冷散热需求和PUE指标要求,需要加速液冷散热、高效供配电、能效监测、智能运维等技术在开放加速计算节点和集群层面的全面布局和应用。

4.1.4 统筹设计原则

生成式AI大模型参数量和训练数据复杂性快速增加,需要从规模化算力部署的角度,统筹考虑大模型分布式训练对于计算、网络和存储的需求特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互连、存算平衡的可扩展集群系统,以满足AI大模型的训练需求。

4.2 设计指南

面向生成式AI的大模型算力系统的构建是一项复杂的系统工程,基于上述设计原则,以提高适配部署效率、提高系统稳定性、提高系统可用性为目标,进一步归纳总结出开放加速规范AI服务器的设计方法。

图1. 开放加速计算系统全栈设计方法

4.2.1 多维协同设计

一般而言,全新的AI服务器系统完整设计周期需要1418个月,基于已有产品定制化改型,根据改动量大小开发周期也要612个月不等,AI加速卡从芯片流片到板卡回样则需要至少6个月。如果系统厂商和芯片厂商没有做好设计协同,系统或芯片任何一方的改型将会带来巨大的时间成本和巨额的资金投入,并严重影响产品上市进度。

此外,面向AIGC的计算系统交付模式不再是单一服务器,绝大多数情况最终部署的形式是包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电、液冷基础设施等在内的一体化高集成度算力集群。

为了实现全局最优的性能、能效或TCO指标,提高系统适配和集群部署效率,需要系统厂商和芯片厂商在系统和芯片规划初期做好全方位、多维度的协同,最大化减少定制开发内容。

节点层面:

(1)系统架构

为满足大模型训练模型参数规模的不断增大给模型训练带来的计算、存储、通信等方面的挑战,系统架构设计将赋能AI服务器节点和服务器集群以超大规模集群互连的大模型训练能力。

OAM 是 OCP-OAI 小组制定的 AI 加速模块接口规范,现已发布 OAM v1.5 规范,OAM 模块承担起单个 GPU 节点的 AI 加速计算能力,通过符合 UBB v1.5 base 规范的基板完成OAM间的 7P × 8 FC(Fully Connect,全互连)、6P × 8 HCM(Hybrid cubic mesh,混合立方互连)等高速互连拓扑实现多OAM数据低延时共享,利用RDMA网络部署等优化通过OSFP/QSFP-DD线缆实现对外拓展完成集群互连,突破了服务器集群在GPU计算资源、通信效率上的瓶颈,最大程度发挥OAM计算性能并降低通信带宽限制。

OAM模块透过 PCIe Switch 通过4条PCIe x 16与高性能CPU建立起高速高带宽数据通道,并支持搭配32条RDIMM或LRDIMM内存,以最大程度的保障OAM与CPU之间的数据通信处理需求。

图2. 开放加速计算节点系统架构:主流OAM互连拓扑(a)FC (b)HCM

(2)OAM模块

OAM规范由OCP-OAI建立,定义了开放硬件计算加速模块的结构形态及互连接口,简化了OAM模块间高速通信链路互连,以此促进跨加速器通信的可扩展性。

CPU与OAM 间的连接是透过 PCIe Switch 上行与CPU 4条PCIe x16带宽完成,极大程度增加CPU与OAM之间的数据通信数量,避免大数据量AI训练场景中CPU与OAM间数据通信出现瓶颈。

支持节点内及节点间OAM P2P高速互连,OAM之间全互连拓扑改善了多OAM数据共享的延迟情况,为计算提供更高效的性能。

OAM模块使用UBB基板进行拓扑互连,通过端口1的1H链路支持对外拓展,其余端口做P2P互连,双向互连带宽112GB/s,All to All 互连总带宽 896GB/s。

(3)UBB基板

UBB基板能够承载支持8个OAM模块,形成一个AI加速计算子系统。UBB尺寸为16.7×21英寸,搭配UBB的机型可以放置于19英寸或21英寸机柜之中。

UBB基板上的8个OAM模块通过可以通过OAM设计规范中的不同互连拓扑进行互连。

UBB链路可以被拆分为×8链路,如果所有7个端口对配置成×16将无法完成对外拓展,因此为实现节点对外拓展形成互连集群,UBB基板将互连链路限制在×8以内,并默认设计端口1的后半部分(×8,通常称为1H端口)被用作对外拓展端口。

UBB基板使用OSFP/QSFP-DD连接器来达成横向拓展拓扑,OSFP/QSFP-DD连接器数量根据不同的设计有所不同,OSFP/QSFP-DD连接器突出UBB托盘至系统机型的外部,通过高速线路连接其他UBB节点或是交换机。

UBB基板支持SerDes数据互连,并预留了SerDes PHY Re-timer空间以支持未来不同的系统与互连设计。

UBB基板通过中背板与PCIe交换板互连,电源、PCIe信号、100MHz clk(clock)、I2C管理信号等均从中背板获取。支持UART、JTAG、I2C等多种Debug方式

4)硬件设计

UBB基板及OAM硬件设计应遵从UBB规范及OAM规范中的各项硬件规范、电气规范、时序规范等。遵从UBB规范中对OAM 布局的规范。

表1. UBB硬件布局和关键部件清单

OAM 互连拓扑损耗评估标准。

对 OAM 互连所涉及的56Gbps PAM信号进行信号完整性设计,包括高速走线参考平面设计、高噪声电源区域走线、过孔stub及层面规划、走线间距、过孔间串扰控制等。

OAM之间互连信号,整体损耗在基频处要求在30dB 以内,其中OAM 的 TX & RX 模组损耗需 控 制 在 8 d B 以 内 , C a b l e 拓 扑 要 求 QSFP-DD assembly 线缆损耗在5dB以内,PCB 损耗根据拓扑具体计算即可。

图3. OAM互连信号损耗示意图

在多个UBB基板进行集群架构时,为增加信号驱动能力,UBB基板设计增加56Gbps PHY Re-timer及光模块。

OA M-PHY Re-timer之间的无源损耗设计在基频处要求在30dB以内,PHY Re-timer到光模块之间损耗满足OIF-CEI-4.0规范要求,即整体损耗不超过10dB,Host PCB上损耗不得超过7.3dB,连接器损耗不超过1.2dB,Module PCB损耗不超过1.5dB。

图4. CEI-56G-VSR-PAM4损耗示意图

供电设计。供电设计方面设计电路保护方案,支持电源热插拔并提供短路保护,供电设计能够满足54V电压链路上电路异常保护全电压范围内的电流需求。

电路保护芯片方面,满足 OAM EDPP 电流值要求和时间要求。54V 电源设计满足 OAM EDPPPower Capping 最小电容容值需求,或参考系统 AC PSU output、OAM 厂商设计需求。

(5)散热设计

风冷散热: 服务器节点风冷散热使用高效能风扇墙设计,并采用侧边防回流设计以增大相同风扇转速下的系统风量。采用导风罩设计的基础上增加OAM、CPU区域多风道隔离设计,能够结合区域感温能力实现分区散热。

风扇全部支持热插拔,支持N+1转子冗余,支持风扇速度智能调节。针对UBB基板及OAM模块,进行散热器性能的热阻值参数设计。

冷板液冷: 根据UBB基板、OAM模块的发热特点及电子信息设备的内部结构进行冷板液冷设计,以获得更好的换热效率,并满足冷板尺寸、接口要求、可靠性等要求。

在芯片使用周期内的壳温要求下,优化流道设计,减小冷板模块的流阻至低于40kPa,并保证相邻并联位置间芯片温差不超过5℃。针对冷板液冷场景,设计漏液检测功能保证服务器可靠性,将漏液检测线缠绕在管路并布置在各个接口、焊接点位置,监控各检测点漏液情况。

(6)系统管理

OAM模块的系统管理方面的设计包含提供资产信息、规范寄存器,并支持满足FW更新、带外监控要求功能。资产信息提供对OAM模块PN、SN、FW版本等信息的访问;寄存器信息提供对电压、功耗、温度、ECC状态及错误、外设错误、PCIe错误、Memory错误等信息的访问;带外监控提供温度、功耗、OAM模块信息、异常告警、OAM状态、卡复位等功能。

(7)故障诊断

故障诊断功能包含OAM卡内部Uncorrectable Error、PCIe 总线错误、ESL 连接异常、卡丢失等功能。通过BMC可监控系统PCIe Switch模块、UBB基板及OAM模块的ECC状态及错误、外设错误、PCIe错误、Memory错误等。支持链路级别的高级故障诊断功能,通过全时监测PCIe Switch运行日志获取OAM卡故障信息。

(8)软件平台

针对大模型开发过程中存在的调度难、部署慢、效率低、集群异常等问题,构建具备高性能、高可靠、可扩展的AI算力资源统一管理和人工智能作业调度平台,通过计算资源池化和容器化技术,屏蔽底层硬件差异,以标准算力模式面向用户直接提供计算资源,并通过适应性策略及敏捷框架对算力进行精准调度配给。

针对多元AI芯片,提供标准、统一的计算资源接入、资源与服务告警、监控能力,可实现对任意数量OAM资源组合的自动化调度,精确匹配不同规模人工智能分布式训练作业对资源的需求,提升集群算力的整体利用率。

提供以太网、InfiniBand网络、RoCE网络混合集群的资源统一管理和调度能力,解耦上层业务,用户业务对异构计算网络无感知。采用数据缓存与任务调度机制,配合大模型训练通信拓扑感知与优化,实现资源的智能调度以及不低于90%的大模型训练线性加速比。

采用故障容错和断点续训技术,实现训练异常和故障的全面检测和自动处理,缩短90%以上的断点续训时间。

集群层面:

(1)集群网络与存储

分布式集群网络和存储为大模型训练提供了算力扩展、资源池化的核心。随着大模型参数的增长,训练模型需要多颗AI芯片甚至众多个AI服务器进行分布式集群部署和训练,为满足服务器节点之间模型参数及训练数据的上百GB/s的并行通信带宽需求,各服务器节点内以及各服务器节点间通过高速互连设计建立起高速、高带宽、低延时的互连网络。

节点内的OAM互连通过 UBB 的互连拓扑及 PCIe Switch 连接CPU实现;节点间的互连通过节点的OSFP/QSFP-DD连接器实现机柜内Serdes高速直连;而机柜之间通过Infiniband或RocE进行跨机柜高速互连,构建起集群网络实现 GPU Over Fabric 技术的高速互连与高性能计算,实现计算资源的弹性拓展、部署、释放等管理。

存储资源池化将支持大模型训练能够使用超大规模的训练数据,除大数据分布式存储 的 技 术 外 , 各 服 务 器 节 点 通 过 N V M e Over Fabric 技术实现服务器集群的高性能存储池化,提升存储及访问的灵活性,支持训练场景下高速并行的文件的存储、载入等任务。

图5. 基于RDMA的跨节点互连拓扑

图6. 基于板端QSFP-DD的跨节点互连拓扑

(2)整机柜

UBB基板的尺寸规范满足服务器上架19寸及21寸整机柜的要求。整机柜设计按照不同空间进行供电节点、服务器节点和交换机节点划分。根据供电设计的不同可分为分散式供电和集中式供电,需满足PDU相关设计。对AI服务器整机柜,机柜内通过服务器节点的OSFP/QSFP-DD连接器实现机柜内Serdes高速直连,而机柜之间通过Infiniband或RocE进行跨机柜高速互连,构建起AIGC服务器集群以满足大模型训练中的高性能计算及通讯的需求。

(3)液冷

集群液冷方案以服务器节点液冷方案或液冷机柜为基础,需满足液冷与服务器各器件的兼容性需求。节点液冷散热应考虑产品的可制造性及工艺可靠性设计,包含器件、线缆、 PCB、 PCBA、整机、及生产端的制程优化及重大工艺问题分析,包括长期兼容性、器件选型、可靠性设计及测试等。液冷机柜可采用双侧循环、单侧循环或均流设计的散热设计。

(4)制冷

高温水系统通过闭式冷却塔直接供冷,包含闭式冷却塔、冷却水循环泵、CDU、定压补水装置、喷淋补水箱等关键设备,闭式冷却塔及水泵均采用变频技术,可根据服务器负载的变化调控冷却塔的风机及水泵频率,实现全年低PUE。低温水系统由“水冷式冷水机组+冷却塔”的形式组合供冷,通过提高供/回水温度、增加自然冷却运行时间,提高制冷系统整体的运行效率。

(5)运维

采用智能运维系统,包括可视化管理系统、能耗管理系统、资产管理系统、告警管理系统、报表管理系统、IT管理系统等。通过统一平台整合管理智算中心的动力系统、环境系统、安防系统、配电系统、暖通系统、液冷系统、消防系统以及服务器等基础设施,从而对智算中心基础设施进行全面监测、管理和优化,并通过对数据的分析和聚合,通过3D可视化+数字孪生技术实现智算中心多尺度视觉管理,最大程度提升智算中心的运营效率与可靠性。

4.2.2 全面系统测试

由于架构复杂度高、芯片种类多、高速信号多、系统功耗大等特点导致异构加速计算节点通常面临故障率高的问题。因此,需要更加全面、严苛的测试条件才能够最大程度降低系统生产、部署、运行过程中的问题和故障风险,提高系统稳定性,减少断点对训练持续性的影响。

(1)结构测试

需要关注OAM模组、OAM散热器、OAM模组导风罩、OAM模组底部托盘、OAM模组上盖、OAM冷板等不存在结构干涉且安装拆卸方便,同时还要增加芯片应力检查、安装扭矩测量等测试工序保障生产和运输过程中芯片不损坏、振动无位移。

(2)散热测试

通过OAM、CPU、Iometer 磁盘加压测试工具对服务器进行满载测试,既要保证满载运行中,芯片、显存温度不超标、无大幅降频,又要兼顾系统整体噪音控制。

压力层面,一般需要芯片厂商提供压力测试工具,压力测试脚本需要覆盖客户最极端应用场景,联合系统厂商共同开展测试并评判结果,通常要求8卡在不低于95%压力下至少稳定运行3*24h或5*24h以上时间,无重启、无宕机、无告警。

(3)稳定性测试

AC\DC\Reboot各1000次以上,要求每一次重启均能正常进入OS,并且系统日志、BMC日志检查无OAM相关报错,未出现OAM设备丢失、降带宽、降速等异常。

(4)软件兼容性测试

需要包括对Ubuntu\RHEL\CentOS等主流操作系统和AIStation等资源管理软件的适配性检查,同时还需要面向应用增加对算子、Pytorch\Tensorflow\PaddlePaddle等AI框架、Deepspeed\Megatron等开发工具、以及主流AI模型和大模型的兼容性测试。

4.2.3 性能测评调优

不同于通用计算系统,面向生成式AI的加速计算系统具有软硬件强耦合特性,为了提高开放加速计算系统的算力可用性,需要开展多层次的性能评测和软硬件深度调优。

(1)基础性能测试

包括在FP32、TF32、FP16/BF16、INT8等多种数据精度上单卡GEMM和峰值算力、多卡算力加速比,以及HBM显存带宽。

(2)互连性能测试

互连性能主要从CPU与OAM、OAM间和跨节点OAM间RDMA互连性能三个维度进行评估。

CPU与OAM间互连带宽主要考量服务器PCIe带宽性能,这部分性能主要影响训练数据和训练结果的读写性能。需使用OAM对应的 BandwidthTest 工具对CPU-OAM、OAM-CPU 互连 PCIe 带宽进行测试,性能应达到理论PCIe 带宽的80% 以上。

OAM间互连带宽主要考量OAM加速芯片P2P 通信带宽延迟性能,这部分性能主要影响节点内OAM间梯度信息的交换和同步通信性能。需使用OAM对应的P2PBandwidthLatencyTest 工具对OAM间P2P带宽延迟性能进行测试,带宽性能应达到理论性能的80% 以上、所有OAM间延迟应一致。

跨节点加速芯片间 RDMA 互连带宽主要考量多个节点之间进行梯度信息的交换和同步通信以实现模型参数的更新。

这部分需要在服务器研发设计过程中考虑 PCIe Switch、OAM 以及RDMA 网卡间的配比关系,以达到最优的性能配比。

同时OAM加速芯片应支持Direct RDMA 技术,如 GPU Direct RDMA 从而实现最优的跨节点通信性能。需使用OAM对应的 Direct RDMA 性能测试工具对跨节点RDMA性能进行测试,RDMA带宽性能应达到理论性能的90% 以上。

(3)模型性能测试

需要在TensorFlow/PyTorch中至少一种框架下开展模型训练和推理性能基准测评。

测评内容需要涵盖主流模型,包括

  • 自然语言处理(BERT)

  • 智能推荐(DLRM)

  • 图像分类(ResNet)

  • 医学影像分割(3D U-Net)

  • 轻量级目标物体检测(RetinaN e t )

  • 重 量 级 目 标 物 体 检 测 ( M a s k R-CNN)

  • 语音识别(RNN-T)

  • 强化学习(Minigo)

**8类AI任务其中推理重点关注 性能指标:**‍

  • 在离线(Offline)场景

  • 多数据流(MultiStream)场景

  • 单数据流(SingleStream)场景

  • 服务器(Server)场景下的推理精度(Inference Accuracy)

  • 系统延迟(Latency)

  • 每秒查询率(QPS)

训练测评则重点关注的性能指标:

  • 训练时间(Training Time)

  • 吞吐量(Throughout)

  • 训练精度(Training Accuracy)

  • 训练功耗(Power)

面向生成式AI大模型应用,建议使用Deepspeed或Megatron至少一种工具开展LLaMA2,Stable Diffusion,Yuan 等基础模型测评,根据模型参数量大小构建多机集群完成测试,多机环境中重点评测多卡性能加速比、训练时间、训练功耗等指标。

(4)模型性能调优

测评之外更重要的步骤是调优,训练负载具有大规模模型和数据集、高度并行化、复杂的计算图、高计算和内存需求以及长时间训练等特点。

针对这些特点,可以采用适当的优化策略和技术,比如数据预处理、超参数调优、使用CUDA Graph以及算子融合等方面的技术和策略,以此充分利用硬件资源,加快模型收敛速度,从而提高训练性能和效率。

推理负载包括多种不同类型的机器学习模型和任务,如图像分类、目标检测、语音识别等。这些任务涵盖了广泛的应用领域,对应的模型通常由包含大量的层和参数的深度神经网络构成。

因此,推理负载对计算资源和内存需求较高,要求推理过程具有低延迟和高吞吐量,能够在有限的时间内快速响应。

一方面可以通过调整如批处理大小(batchsize)、推理流( inference stream )及复制流(copy stream)等通用模型推理调优配置参数,和图序列最大长度(graph max sequence)等专用模型(如BERT)推理调优配置参数来提升推理性能。

另一方面也可以通过如基于算子层面的合并和分块优化方法,降低对全局内存的访存压力,提升推理性能。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值