强化学习：关于随机策略梯度法中的损失定义

ggjkd

于 2021-03-18 19:51:06 发布

阅读量421

点赞数

分类专栏：强化学习文章标签：算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ggjkd/article/details/114988441

版权

强化学习专栏收录该内容

8 篇文章

订阅专栏

本文探讨了如何利用神经网络实现策略梯度方法，并详细解释了如何定义神经网络的损失函数，通过将强化学习问题转化为分类问题的方式，结合奖励信号调整参数更新方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

还是采用神经网络用于状态和行为概率的非线性拟合

1、随机策略梯度算法回顾
在这里插入图片描述
如上图，迭代公式定义为新=旧+alpha*吃惊程度。所谓的吃惊程度是指，根据当前策略依概率选择了一个行为，虽然这个行为概率较小，但”-log"之后很大，这时候反馈回了一个奖励vt，表明这个小概率行为让决策人很吃惊，接下来要大改参数。

2、如何定义神经网络损失
已知策略梯度法不是依赖损失来反馈修改参数，但神经网络迭代依赖的就是损失，那么如何定义策略梯度的“损失”。
将问题转换为分类问题：
已经获得了一整条轨迹（s1,a1,r2,s2,a2,r3,s3,a3,r4,s4,…)
假设，对于s1，认定a1就是对的，也就是s1对应的真实标签，onehot编码后也就是（1，0，0，…，0)；
此时，将s1输入神经网络中，得出一个行为概率分布，与真实标签对应后，就会得出一个分类交叉熵；
但事实却不是这样, 动作a1不一定是 “正确标签”,于是加入vt（奖励来修正损失方向），用 vt 来告诉这个 cross-entropy 算出来的梯度是不是一个值得信任的梯度. 如果 vt 小, 或者是负的, 就说明这个梯度下降是一个错误的方向, 我们应该向着另一个方向更新参数, 如果这个 vt 是正的, 或很大, vt 就会称赞 cross-entropy 出来的梯度, 并朝着这个方向梯度下降.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。