核心开发者解读：verl 源码与 HybridFlow 编程范式-CSDN博客

本文链接：https://blog.csdn.net/QingKeLab/article/details/147924934

https://mp.weixin.qq.com/s/8aVWKzsOOWoeBI26NHAOFA

verl 是字节跳动豆包大模型团队与香港大学联合提出的一个灵活且高效的 RL/RLHF 框架，是当前最为流行的大型语言模型强化学习训练框架之一，其基于 HybridFlow 编程范式，兼顾了灵活性和效率。

该框架采用混合编程模型，融合单控制器（Single-Controller）的灵活性和多控制器（Multi-Controller）的高效性，可更好实现和执行多种RL算法，显著提升训练吞吐量，降低开发和维护复杂度。实验结果表明，HybridFlow 在运行各种 RL(HF) 算法时，吞吐量相较 SOTA 基线提升了 1.5-20 倍。

verl 具有以下特点

灵活的强化学习算法扩展：基于混合控制器的编程模型，能够灵活表示和高效执行复杂的后训练数据流。仅需几行代码即可构建GRPO、PPO等强化学习流程。
模块化API与现有LLM基础设施无缝集成：解耦计算与数据依赖，可与主流LLM框架（如FSDP、Megatron-LM、vLLM、SGLang等）无缝对接。
灵活的设备映射策略：支持多种GPU分配方案，实现资源高效利用和跨集群规模扩展。
开箱即用的HuggingFace模型支持

verl 具备卓越性能：

业界领先的吞吐量：集成最先进的LLM训练/推理引擎，实现SOTA级强化学习吞吐量
基于3D-HybridEngine的智能Actor模型分片：消除内存冗余，显著降低训练与生成阶段切换时的通信开销

核心特性

训练支持：FSDP、FSDP2、Megatron-LM
推理加速：vLLM、SGLang、HF Transformers
兼容Hugging Face生态：支持Qwen-3、Qwen-2.5、Llama3.1、Gemma2、DeepSeek-LLM等主流模型
监督微调（SFT）
强化学习算法：支持PPO、GRPO、ReMax、REINFORCE++、RLOO、PRIME、DAPO、DrGRPO等
- 支持模型奖励与函数式奖励（可验证奖励）
- 支持多模态模型（VLM）多模态RL训练
- 多轮工具调用
对齐技术：如自博弈偏好优化（SPPO）
优化技术：Flash Attention 2、序列打包、DeepSpeed Ulysses序列并行、LoRA、Liger内核加速
扩展能力：支持70B级模型与数百GPU集群
实验管理：集成wandb、swanlab、mlflow、tensorboard

5月19晚8点，verl core contributor 童雨轩，将直播分享《verl 源码解读与 HybridFlow 编程范式讲解》。

本次 Talk 会从entrypoint(例如 main_ppo.py)入手，按程序执行顺序讲解 verl 的主要逻辑(类似 debugger 视角，但经过整理总结)，穿插介绍 HybridFlow 编程范式的主要内容与设计动机。希望能让大家获得对 verl 的行为与设计思想较为全面的理解。

分享嘉宾

童雨轩，清华大学计算机系本科生，曾于清华大学知识工程实验（THUKEG）、香港科技大学自然语言处理实验室（HKUST-NLP）、卡耐基梅隆大学语言技术研究所（CMU-LTI）、字节跳动 Seed 等机构实习。在 NeurIPS、ICLR、ICML 等国际会议发表论文 3 篇，谷歌学术引用量达 650。研究兴趣集中在自然语言处理、机器学习、强化学习等领域，致力于构建具备长上下文推理能力的人工智能系统。