强化学习（五）-Deterministic Policy Gradient (DPG) 算法及公式推导

最新推荐文章于 2024-06-09 21:08:51 发布

晚点吧

最新推荐文章于 2024-06-09 21:08:51 发布

阅读量1.3k

点赞数 20

分类专栏：强化学习文章标签：算法强化学习 RF DPG DDPG actor-critic

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42529756/article/details/135175448

版权

强化学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

针对连续动作空间，策略函数没法预测出每个动作选择的概率。因此使用确定性策略梯度方法。

0 概览

1 actor输出确定动作
2 模型目标：
actor目标：使critic值最大
critic目标：使TD error最大
3 改进：
使用两个target 网络减少TD error自举估计。

1 actor 和 critic 网络

确定性策略网络
actor: a= $\pi(s;\theta)$ 输出为确定性的动作a
动作价值网络
critic Q=q(s,a;w) ,用于评估动作a的好坏

2 critic网络训练

观察一组数据 $s_t,a_t,r_t,s_{t+1})$
即在状态 $s_t$ 时，执行动作 $a_t$ ,得到奖励 $r_t$ ，和下一状态 $s_{t+1}$
$a_t时刻Q值: q_t=q(s_t,a_t,w)$
$a_{t+1}时刻Q值: q_{t+1}=q(s_{t+1},a_{t+1},w)$ ，其中 $a_{t+1}=\pi(s_{t+1};\theta)$
即TD Target = $r_t+\gamma * q_{t+1}$
目标：使t时刻的TD error最小
TD error： $\delta_t=q_t-(r_t+\gamma * q_{t+1})$
$w=w-\alpha *\delta_t* \frac{\partial q(s_t,a_t;w)}{\partial w}$

3 actor 网络训练

actor 网络目标是时critic值最大，所以要借助critic网络，将actor值带入critic网络，使critic最大。

a= $\pi(s;\theta)$ ,带入q(s,a;w)中得到 q(s, $\pi(s;\theta)$ ;w)
即使 q(s, $\pi(s;\theta)$ ;w) 最大
对 $\theta$ 求导:
$g=\frac{\partial q(s,\pi(s;\theta);w)}{\partial \theta}=\frac{\partial a }{\partial \theta} *\frac{\partial q(s,a;w) }{\partial a}$
参数更新
$\theta=\theta + \beta* g$

4 训练改进

4.1 主网络actor和critic更新

critic 网络更新时，在计算TD error时，使用了自举，会导致数据过高估计或者过低估计。
关键在于 $t + 1$ 时刻的 $a_{t+1}和q_{t+1}怎么生成$
和其他方法一样，可以使用两个actor和两个critic网络，减少自举带来的估计。

t+1 时的 $a_{t+1}$ 使用另一个target 策略网络actor生成
$a_{t+1}=\pi(s_{t+1};\bar\theta)$
同样t+1时 $q_{t+1}$ 使用另一个target critic网络生成
$q_{t+1}=q(s_{t+1},a_{t+1};\bar w)$

actor 参数更新方式不变。
critic更新方式变化，使用了target网络产生的 $a_{t+1}和q_{t+1}$
在这里插入图片描述

4.2 target网络actor和critic更新

target 网络初始时来自主网络，后期更新时，部分来自主网络，部分来自自己。
$\bar w= \tau *w +(1-\tau) * \bar w$
$\bar \theta= \tau *\theta +(1-\tau) * \bar \theta$

5 其他改进措施

添加经验回放， Experience replay buffer
多步TD target
target networks

关注

20
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
强化学习（五）-Deterministic Policy Gradient (DPG) 算法及公式推导

强化学习连续性动作求解，使用DDPG，输出确定性动作a .使用两个actor和critic来改进模型训练
复制链接

扫一扫

专栏目录

晚点吧 CSDN认证博客专家 CSDN认证企业博客

码龄6年

159: 原创

24万+: 周排名

2万+: 总排名

12万+: 访问

: 等级

1969: 积分

215: 粉丝

296: 获赞

40: 评论

578: 收藏

私信

关注

热门文章

分类专栏

CV 10篇
speech 1篇
NLP 5篇
pytorch 9篇
强化学习 5篇
tensorflow2 17篇
神经网络 14篇
算法工程化 2篇
推荐系统 25篇
英语 6篇
深度学习算法 10篇
算法 1篇
图算法 1篇
spark 6篇
scala 8篇
hive 5篇
hadoop 3篇
大数据 7篇
机器学习 11篇
自然语言处理 4篇
头条推荐系统项目实战 2篇
聊天机器人 16篇
fasttext 3篇
flink 4篇
linux 3篇

最新评论

spark基于HNSW向量检索
Shawn.Leung: 您好遇到这种问题应该怎么解决啊 User class threw exception: java.lang.UnsatisfiedLinkError: It's not possible to use the pre-generated dynamic libraries on your system. Please compile it yourself (if not done yet) and set the "jna.library.path" property with correct path to where "libhnswlib-jna-x86-64.so" is located. at com.stepstone.search.hnswlib.jna.HnswlibFactory.getInstance(HnswlibFactory.java:38)
ChatGLM2-6b本地部署
m0_57335096: 博主，可以分享一下权重的百度网盘嘛
不同生成式AI模型的优缺点（GAN，VAE，FLOW）
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
mac m1芯片 pytorch安装及gpu性能测试
weixin_65729666: AE()是哪个函数
图片风控NSFW(not suit for work)-1 tensorflow2模型重构
沉淀sync: 你好，我把image_loader= "yahoo"改成image_loader = "tensorflow"后报错RuntimeError: The Session graph is empty. Add operations to the graph before calling run().应该怎么解决

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。