verl - 火山引擎大语言模型强化学习训练库

在这里插入图片描述

本文翻译整理自:https://github.com/volcengine/verl


一、关于 verl

verl 是由 字节跳动 Seed 团队 发起、verl 社区维护的强化学习训练库,专为大语言模型(LLM)设计,具有灵活、高效且生产就绪的特点。

verl 是论文 HybridFlow: A Flexible and Efficient RLHF Framework 的开源实现。


相关链接资源


关键功能特性

  • 灵活扩展多种 RL 算法:混合控制器编程模型可灵活表示并高效执行复杂的训练后数据流,仅需几行代码即可构建 GRPO、PPO 等 RL 数据流
  • 模块化 API 无缝集成现有 LLM 基础设施:解耦计算与数据依赖,轻松集成 FSDP、Megatron-LM、vLLM、SGLang 等框架
  • 灵活设备映射:支持将模型部署到不同 GPU 组以实现高效资源利用和集群扩展
  • 开箱即用的 HuggingFace 模型支持
  • 前沿吞吐性能:集成 SOTA LLM 训练/推理引擎,提供 SOTA 级 RL 吞吐
  • 3D-HybridEngine 高效执行器模型分片:消除内存冗余,显著减少训练与生成阶段切换时的通信开销

二、最新动态

  • [2025/05] verl 将亮相 GOSIM x PyTorch Day 2025,巴黎见!
  • [2025/04] 我们将在 ICLR 2025 ExpoSCI-FM workshopLMSys afterparty 举办最新训练技术与编程指南教程,新加坡见!
  • [2025/04] Seed-Thinking-v1.5 技术报告发布!基于 verl 训练的模型在 AIME 2024 达 86.7 分,Codeforces 55.0 分,GPQA 77.3 分,展现卓越的 STEM 与代码推理能力
  • [2025/04] 正在开源 VAPO(基于价值的增强 PPO)配方,该方案从 Qwen-32B-base 训练,在 AIME 2024 达 60.4 分,超越 DeepSeek-zero-32B 和 DAPO-32B
  • [2025/03] verl v0.3.0.post1 发布!详见 release note
  • [2025/03] DAPO 开源算法基于 Qwen2.5-32B 预训练模型在 AIME 2024 达 50 分,超越 DeepSeek 的 GRPO (DeepSeek-R1-Zero-Qwen-32B),完整训练代码现已在 recipe/dapo 提供

更多…


三、技术特性

  • 训练引擎支持 FSDPMegatron-LM
  • 生成引擎支持 vLLMSGLangHF Transformers
  • 兼容 Hugging Face Transformers 和 Modelscope Hub 模型:Qwen-2.5、Llama3.1、Gemma2、DeepSeek-LLM 等
  • 监督微调支持
  • 强化学习算法支持:
  • 通过 DeepSpeed Ulysses 支持 Flash attention 2、序列打包序列并行
  • 支持 LoRALiger-kernel
  • 可扩展至 700 亿参数模型和数百块 GPU
  • 实验追踪支持 wandb、swanlab、mlflow 和 tensorboard

四、快速开始

文档 : https://verl.readthedocs.io/en/latest/index.html"

快速入门:

PPO 示例分步指南:

可复现算法基线:

代码解析与高级用法(扩展):

社区博客:


五、性能调优指南

策略性 RL 算法的性能至关重要,我们编写了详细的性能调优指南帮助优化性能。


六、升级至 vLLM >= v0.8.2

使用 FSDP 作为训练后端时,verl 现已支持 vLLM>=0.8.2。请参考此文档获取安装指南和更多信息。请避免使用 vllm 0.7.x 版本,该版本存在可能导致 OOM 和意外错误的缺陷。


七、使用最新 SGLang

verl 已全面支持 SGLang,SGLang RL 小组正着力构建独特功能,包括多轮代理 RL、VLM RLHF、基于服务器的 RL 和部分生成。请参考此文档获取安装指南和更多信息。


八、硬件支持:AMD (ROCM 内核)

verl 现已支持将 FSDP 作为训练引擎(即将支持 Megatron),并集成 vLLM 和 SGLang 作为推理引擎。请参考此文档获取安装指南和更多信息。


九、基于 verl 的优秀项目

  • TinyZero:复现 DeepSeek R1 Zero 推理任务方案的代码库

  • DAPO:完全开源的 SOTA RL 算法,击败 DeepSeek-R1-zero-32B

  • SkyThought:NovaSky AI 团队为 Sky-T1-7B 进行的 RL 训练

  • simpleRL-reason:SimpleRL-Zoo:探索与驯服开放基础模型的零样本强化学习

  • Easy-R1多模态 RL 训练框架

  • OpenManus-RL:为多代理环境设计的 LLM 代理 RL 调优框架

  • deepscaler:通过 GRPO 实现迭代上下文扩展

  • rllm:使用 verl-pipeline 进行异步 RL 训练

  • PRIME:通过隐式奖励进行过程强化

  • RAGEN:通用推理代理训练框架

  • Logic-RL:在 2K Tiny Logic Puzzle 数据集上复现 DeepSeek R1 Zero

  • Search-R1:结合推理与**搜索(工具调用)**的交错式 LLM RL

  • ReSearch:通过强化学习让 LLM 学会推理搜索

  • DeepRetrieval:通过 RL 让 LLM 操控真实搜索引擎检索器实现信息检索

  • Code-R1:使用可靠奖励复现 代码 R1 方案

  • Skywork-OR1:Skywork 开放推理器系列

  • ToRL:扩展工具集成的 RL


    2025-04-23(三)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程乐园

请我喝杯伯爵奶茶~!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值