强化学习:关于随机策略梯度法中的损失定义

还是采用神经网络用于状态和行为概率的非线性拟合

1、随机策略梯度算法回顾
在这里插入图片描述
如上图,迭代公式定义为新=旧+alpha*吃惊程度。所谓的吃惊程度是指,根据当前策略依概率选择了一个行为,虽然这个行为概率较小,但”-log"之后很大,这时候反馈回了一个奖励vt,表明这个小概率行为让决策人很吃惊,接下来要大改参数。

2、如何定义神经网络损失
已知策略梯度法不是依赖损失来反馈修改参数,但神经网络迭代依赖的就是损失,那么如何定义策略梯度的“损失”。
将问题转换为分类问题:
已经获得了一整条轨迹(s1,a1,r2,s2,a2,r3,s3,a3,r4,s4,…)
假设,对于s1,认定a1就是对的,也就是s1对应的真实标签,onehot编码后也就是(1,0,0,…,0);
此时,将s1输入神经网络中,得出一个行为概率分布,与真实标签对应后,就会得出一个分类交叉熵;
但事实却不是这样, 动作a1不一定是 “正确标签”,于是加入vt(奖励来修正损失方向),用 vt 来告诉这个 cross-entropy 算出来的梯度是不是一个值得信任的梯度. 如果 vt 小, 或者是负的, 就说明这个梯度下降是一个错误的方向, 我们应该向着另一个方向更新参数, 如果这个 vt 是正的, 或很大, vt 就会称赞 cross-entropy 出来的梯度, 并朝着这个方向梯度下降.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值