关于判断强化学习方法是否为On-Policy

在强化学习中,算法是否为On-Policy,取决于算法的优化目标是否依赖行为策略的动作概率分布。若依赖,则该算法为On-Policy,往往需要使用重要性采样方法来增加样本效率。

具体而言,在一些优化目标依赖行为策略的动作概率分布的方法中,若直接使用由行为策略采集的样本进行梯度计算,其梯度的期望值实际上是依赖于行为策略的概率分布,这导致计算出来的梯度期望值并不是当前优化的目标策略的梯度期望值,目标策略将无法进行正确优化。

具体的例子后续有时间再做补充……

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值