DPG（确定策略梯度）

最新推荐文章于 2023-12-23 22:54:22 发布

whzooz

最新推荐文章于 2023-12-23 22:54:22 发布

阅读量2.7k

点赞数 1

分类专栏：强化学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41903673/article/details/124407908

版权

强化学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

基本网络结构：

还是基于Actor-critic网络的一种结构，包含策略网络和价值网络。

这里的策略网络为，但输出不再是概率分布，而是一个确定的实数或向量，输出的动作a是确定的，没有随机性，在机械臂的例子中，输出的是二维向量，因为机械臂有两个动作维度。

这里的价值网络有两个输入，分别是状态s和动作a，输出的是一个实数，即对动作的评价。

我们要做的就是训练这两个网络，让策略函数选取动作越来越好，让价值函数打分越来越准确。

价值网络的训练：

1.观测到一个四元组。

2.根据观测到的t时刻的动作和状态，预测t时刻的价值。

3.预测t+1时刻的价值，这里用到的是把输入到策略网络预测出来的，但是这个并不是要去执行的动作，只是为了代入。

4.计算TD error，括号里的部分为TD target。

5.进行梯度下降更新参数w。

策略网络的训练：

更新策略网络要依赖于价值网络，价值网络可以评价动作a的好坏，从而指导策略网络进行改进，策略网络自己不知道动作的好坏，要靠价值网络的输出，价值网络的输出越大，就代表评价越好，动作越好，所以我们要改变策略网络的参数θ，让价值网络的输出越大越好。

目标就是增加价值网络的输出，而价值网络中的a是由策略网络得出的，所以这里的DPG（确定策略梯度)就是价值网络关于θ求导，然后最后一步做梯度上升，来更新参数θ。使得θ的值更好，选取的动作的价值评分更高。

小的改进（用target network):

第四步计算时，用的不再是策略网络和价值网络，而是用新的target network，target network的结构和前者一模一样，但是参数略有不同。

其他的改进方法如下：

随机策略和确定策略的区别：

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
DPG（确定策略梯度）

基本网络结构：还是基于Actor-critic网络的一种结构，包含策略网络和价值网络。这里的策略网络为，但输出不再是概率分布，而是一个确定的实数或向量，输出的动作a是确定的，没有随机性，在机械臂的例子中，输出的是二维向量，因为机械臂有两个动作维度。这里的价值网络有两个输入，分别是状态s和动作a，输出的是一个实数，即对动作的评价。我们要做的就是训练这两个网络，让策略函数选取动作越来越好，让价值函数打分越来越准确。价值网络的训练：1.观测到一个四元组。2.根据观测到的t时刻的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。