- 博客(4)
- 收藏
- 关注
原创 openrlhf中PPO算法agent的定义及调用
本文深入解析了OpenRLHF框架中PPO算法如何通过Ray分布式系统调用agent生成训练数据的过程。文章分为四个部分:首先追溯PPO训练主程序如何调用agent(vllm_engines);其次分析agent生成experience的流程;然后阐述基于Ray的vllm_engines部署和调用机制;最后说明agent的自定义实现方式。
2025-09-17 18:29:34
560
原创 山东大学,机器人学导论,第五章知识点整理(简要版)
直角空间描述的特点:路径可控且可预知,直观容易地看到机器人末端执行器的轨迹,但计算量大,容易出现奇异点。将轨迹分成若干段,使机器人的运动经过这些中间点,在每一点都求解机器人的关节变量,直到达到终点。所有关于关节空间轨迹规划的方法都可用于直角坐标空间的轨迹规划。关节空间法:以关节角度的函数来描述机器人归集的方法。轨迹:在路径的基础上,强调到达任意一点的时间。额外:指定运动段的起点和终点的加速度。抛物线过渡的线性运动轨迹。直角坐标空间的轨迹规划。三次多项式的轨迹规划。五次多项式的轨迹规划。
2023-05-25 16:58:22
489
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人