背景与简介
大语言模型的快速发展对训练和推理技术带来了更⾼的要求,基于飞桨框架3.0版本打造的PaddleNLP大语言模型套件,通过极致的全流程优化,为开发者提供从组网开发、预训练、精调对⻬、模型压缩以及推理部署的一站式解决⽅案。
产品亮点
1. ⼤模型自动并行,千亿模型训推全流程开箱即⽤
基于⻜桨框架3.0版本,通过统一的分布式表示结合自动并行技术,⼤幅简化了组网开发的复杂性,分布式核心代码量减少50%以上,全分布式策略⽀持的组网使得Llama 3.1 405B模型开箱即用,同时预置了80多个主流模型的训练-压缩-推理的全流程方案,以满足不同场景需求。
2. 大模型训推一体,提供产业级高性能精调与对⻬方案
基于⻜桨框架独有的FlashMask高性能变⻓注意⼒掩码计算机制,结合Zero Padding零填充数据流优化技术,可最大程度减少无效数据填充带来计算资源浪费,显著提升精调和对⻬性能。以Llama 3.1 8B模型为例,相⽐LLaMA-Factory⽅案,性能提升了1.2倍,单机即可完成128K⻓文的SFT/DPO。借助⻜桨训推一体特性,提供产业级的RLHF⽅案,PPO采样可复⽤推理加速算⼦,训练吞吐提升达2.1倍。
3. 大模型多硬件适配,30余接⼝低成本适配实现软硬协同优化
基于⻜桨插件式松耦合统⼀硬件适配⽅案(CustomDevice),仅需适配30余个接⼝,即可实现⼤模型的基础适配,低成本完成训练-压缩-推理全流程;PaddleNLP⽬前⼀站式支持英伟达 GPU、昆仑芯 XPU、昇腾NPU、燧原 GCU 和海光 DCU 等多款芯⽚的⼤模型训练和推理,依托框架多种算⼦接⼊模式和自动并行调优等技术,便捷实现框架与芯片间软硬协同的性能优化。
欢迎开发者前往开源项目主⻚直接体验:
https://github.com/PaddlePaddle/PaddleNLP
亮点⼀:大模型自动并行,千亿级模型训推全流程开箱即用
1. 自动并行降低开发成本,80+模型开箱即用
本次PaddleNLP 3.0升级总计涵盖了80+业界主流的开源⼤语⾔模型,参数量覆盖从0.5B到405B不等,能够灵活满⾜各种场景下的⽤户需求。借助⻜桨3.0版本框架的最新特性,通过统⼀的分布式表示和⾃动并⾏技术,⼤幅简化了组⽹开发的复杂性。分布式核⼼代码量减少50%以上,全分布式策略⽀持的组⽹使得Llama 3.1 405B的SFT与PEFT功能开箱即⽤。
动静统一、自动并行
2. 训压推全流程贯通,模型秒级保存与稳定恢复
在PaddleNLP本次升级中重点强化大语言模型训练-压缩-推理的全流程开发能⼒,基于⻜桨框架3.0版本全新设计的⼀站式开发体验,⼤幅降低学习和使⽤成本。
-
分布式训练:基于Fleet API实现了全并行策略支持的⾼性能组网,覆盖预训练、精调(SFT/PEFT)和对⻬(RLHF/DPO)三个环节的主流算法,相比HuggingFace Transformers仅支持数据并行的组网实现,⻜桨的组网原生支持张量并⾏和流⽔线并⾏,在低资源精调和⻓⽂训练场景中,具备更⾼的性能上限和可扩展性;
-
**模型压缩:**基于PaddleSlim提供的多种大语言模型Post Training Quantization技术,提供WAC(权重/激活/缓存)灵活可配的量化能⼒,与Paddle Inference深度联动,保障压缩后的模型均能利用高性能低比特算子进行推理。
-
**推理部署:**基于FastDeploy全场景部署工具,提供了面向服务器场景的高性能推理服务,支持动态插⼊、流式输出、多硬件部署等功能。
业界⽅案在不同并⾏策略和不同结点数量下模型保存的Checkpoint格式不统一,模型量化和推理部署使⽤时需引⼊复杂切分和合并过程,保存和恢复时间⻓。针对这一系列问题,PaddleNLP设计了Unified Checkpoint⼤模型存储⽅案,突破了以下三个技术瓶颈:
-
统⼀模型存储协议,在模型压缩、动转静、推理部署等环节中⽆需引⼊额外的参数合并流程。
-
内置参数⾃适应切分与合并功能,恢复训练时并⾏策略或者结点数量变化时可⾃动完成切分与合并,精准还原数据流状态。
-
支持异步保存与无损压缩,结合存储参数多进程均匀读写分配,实现秒级保存与80%存储空间缩减。
亮点二:大模型训推一体,提供高性能产业级的精调与对⻬解决方案
1. 精调对⻬性能极致优化,支持128K⻓上下文训练
在精调和对⻬训练中为业界普遍采⽤定⻓Padding策略解决数据⻓度不⼀的问题,该做法随着数据集⻓度分布差异增⼤,⽆效的Padding计算也会同步增加,继⽽导致训练时间增⻓。针对这⼀问题,⻜桨框架独有 FlashMask⾼性能变⻓注意⼒掩码计算结合PaddleNLP中Zero Padding零填充数据流优化技术,通过分组贪⼼的数据填充策略,可最⼤程度消除⽆效Padding的⽐例。同时,ZeroPadding+FlashMask稀疏计算的特性也⼤幅减少了显存开销,使精调训练代码⽆缝从8K扩展到128K的⻓⽂训练。
综合上述优化,相比LLaMA-Factory,PaddleNLP在SFT环节性能提升120%,DPO环节性能提升****130%~240%,大幅降低了大模型精调和对⻬环节所需的计算成本。
SFT/DPO训练有效吞吐性能对⽐
2. 训推一体框架特性加速RLHF训练效率
⼈类反馈强化学习(RLHF)通过不断接收⼈类对于模型⾏为的直接评价或示例指导,促使模型效果逐渐逼近⼈类预期的⾏为模式。然⽽,多样化的样本导致待对⻬模型出现奖励信号互斥和策略更新程度难以平衡的现象,进⽽导致模型训练时波动幅度⼤且收敛速度慢,多模型⽣成和训练容易占⽤显存⼤,训练速度慢。针对这⼀系列问题,PaddleNLP基于⻜桨训推⼀体框架特性和多种策略结合的来解决:
-
训推⼀体:依托⻜桨框架训推⼀体特性,在Policy模型采样⽣成复⽤推理⾼性能融合算⼦,使RLHF训练加速 2.1 倍。
-
**显存优化:**基于⻜桨原⽣的张量并⾏/流⽔线并⾏能⼒,结合Offload训练模式控制显存占⽤,单机即可完成训练百亿级别PPO训练。
-
**策略优化:**⽀持优势函数平滑、EMA参数策略,提升模型训练稳定性。
综合上述优化,以LLaMA-7B模型为例,PaddleNLP的PPO训练性能达Beaver框架的3.2倍。
RLHF训练策略
RLHF PPO训练速度对⽐
亮点三:⼤模型多硬件适配,30余接⼝低成本适配实现软硬协同优化
基于⻜桨框架3.0发布的⼤模型多硬件适配技术,通过插件式软硬件松耦合的分层设计,可以低成本完成芯⽚的⼤模型基础适配和软硬协同优化,其具备以下特点:
-
**硬件适配简捷⾼效:**不同硬件仅需适配30余接⼝,即可全⾯⽀持⼤模型训压推。
-
**基础算⼦体系完备:**通过基础算⼦体系,减少硬件适配所需开发的算⼦数量。
-
**⼤模型性能极致优化:**⽀持算⼦融合、显存复⽤等⽅式实现⾼效算⼦流⽔编排,极致显存复⽤优化。
-
**硬件编译接⼊⾃动优化:**⽀持通过神经⽹络编译器代码后端 CodeGen 的⽅式接⼊,实现多硬件后端的算⼦⽣成与性能优化。
PaddleNLP⽬前⼀站式⽀持英伟达 GPU、昆仑芯 XPU、昇腾 NPU、燧原 GCU 和海光 DCU 等多款芯⽚的⼤模型训练和推理,依托框架多种算⼦接⼊和适配模式,以及⾃动并⾏调优等技术,便捷实现框架与芯⽚软硬协同的性能优化。
⻜桨⼤模型多硬件适配
当前PaddleNLP 3.0在⽀持英特尔CPU和英伟达GPU的硬件基础上,针对Llama类模型结构已适配了昆仑芯 XPU、昇腾NPU、海光DCU以及燧原GCU等国产硬件的训练和推理,只需要⼀⾏代码即可轻松切换硬件,欢迎与⽣态伙伴⼀起共建更多开源⼤模型的多硬件⽀持!
英特尔 CPU | 英伟达 GPU | 昆仑芯 XPU | 昇腾 NPU | 海光 DCU | 燧原 GCU | |
Llama | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
一行代码切换硬件:
1 # ⼀⾏⾃动切换多种硬件环境
2 paddle.device.set_device("gpu") # 切换英伟达GPU和海光DCU
3 paddle.device.set_device("xpu") # 切换昆仑芯XPU
4 paddle.device.set_device("npu") # 切换昇腾NPU
5 paddle.device.set_device("gcu") # 切换燧原GCU
6 paddle.device.set_device("cpu") # 切换英特尔CPU
AI大模型学习福利
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓