- 博客(3)
- 收藏
- 关注
原创 VeRL 强化学习场景下NPU环境profiling使用指南
本文介绍了在NPU环境下使用Profiling工具进行强化学习模型性能优化的方法。主要内容包括:1)Profiling配置的三部分结构(全局控制、角色控制和具体采集行为);2)实践案例展示E2E和离散两种采集模式;3)MindStudio Profiler Analyze工具的使用,特别是性能对比功能;4)精细化采集策略,通过schedule类参数控制采集行为。文章提供了详细的配置示例和可视化结果,帮助开发者识别性能瓶颈,优化模型训练和推理效率。
2026-03-01 19:20:36
782
原创 VeRL engine_worker使能记录
本文介绍了强化学习训练框架中的Engine Worker统一架构,旨在解决FSDP和Megatron框架维护成本高的问题。Engine Worker通过解耦框架能力与任务逻辑,提供统一训练入口。文章详细说明了启用方法、架构设计(核心类ActorRolloutRefWorker)以及环境配置要求,并针对实践中遇到的Ray启动、transformers版本、tensordict版本等常见问题提供了解决方案。该架构显著提升了代码复用性和维护效率,为强化学习训练提供了更优的技术实现方案。
2026-03-01 19:08:45
961
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅