强化学习&基于策略7.4 | Trajectory轨迹

本文探讨了强化学习中的Trajectory概念,它是一系列状态动作序列,其奖励总和构成目标。为了最大化期望回报,文章介绍了使用梯度上升法优化参数的策略,并讨论了在实际计算中如何通过选取部分轨迹(m个)来有效更新模型参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Trajectory是一段状态动作序列,没有对长度的限制,R是一段Trajectory的奖励之合
在这里插入图片描述
我们的的目标是找到参数最大化期望回报,用的是每个概率下的Trajectory乘以它的总的reward
在这里插入图片描述
为了最大化expected return,我们使用梯度上升的方法,来找到到参数sita。
在这里插入图片描述
如果使用每个trajectory的话计算量会很大,所以只选取其中m个进行计算,那么如何用收集到m个trajectory来更新参数呢?i是代表第几个trajectory
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ASKCOS

你的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值