Trajectory是一段状态动作序列,没有对长度的限制,R是一段Trajectory的奖励之合
我们的的目标是找到参数最大化期望回报,用的是每个概率下的Trajectory乘以它的总的reward
为了最大化expected return,我们使用梯度上升的方法,来找到到参数sita。
强化学习&基于策略7.4 | Trajectory轨迹
最新推荐文章于 2024-05-27 10:11:45 发布
Trajectory是一段状态动作序列,没有对长度的限制,R是一段Trajectory的奖励之合
我们的的目标是找到参数最大化期望回报,用的是每个概率下的Trajectory乘以它的总的reward
为了最大化expected return,我们使用梯度上升的方法,来找到到参数sita。