强化学习（DQN、TPRO、PPO）

最新推荐文章于 2024-06-08 00:47:50 发布

华丽的虚伪-

最新推荐文章于 2024-06-08 00:47:50 发布

阅读量2.7k

点赞数 1

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43244309/article/details/126334067

版权

DQN--基于价值

强化学习中有开发和探索两个概念

1.开发：就是让agent在已知的（状态-动作）二元分布中根据奖励最大化选择最优动作。

2.探索：让agent在未知二元组分布外，选择其他的动作

开发是让当前期望的奖励最大化，而探索则是让从长远的角度让奖励最大化。在DQN中用到了ϵ−贪心策略，正数ϵ的概率随机选择未知的一个动作，剩下（1 − ϵ）的概率选择已有动过中动作价值最大的动作。在决策过程中，有ϵ 概率选择非贪心的动作，即每个动作被选择的概率为 ϵ/∣A∣，其中|A|表示动作数量，也就是说，每个动作都有同样 ϵ/∣A∣概率的被非贪心的选择。另外还有1−ϵ的概率选择一个贪心策略，因此这个贪心策略被选择的概率则为 1−ϵ + ϵ /∣A∣。在所有的动作集合A中，在某一个时刻，总会有一个动作是智能体认为的最优动作，即a∗=argmax(Q(a,s)) 。

DQN和Q-Learning都是基于价值迭代的算法并且，可能价值迭代不适用我们的场景，因此DQN中的模型学习效果不好，与Q-Learning相比DQN通过建立记忆池减小了数据之间的相关性，同时减小了参数更新的方差，提高的收敛速度。DQN的agent每次从环境中采样得到的四元组数据（状态、动作、奖励、下一状态）存储到回放缓冲区中，训练Q网络的时候再从回放缓冲区中随机采样若干数据来进行训练。

DQN通过神经网络产生当前的Q估计值和Q现实值，产生这两个值的网络结构相同但是参数不同，预测Q估计的网络使用最新的参数值，而预测Q现实的网络则使用先前的参数值。

PPO--基于策略

Policy Gradient是基于Policy做梯度下降优化模型，进而改变动作出现的概率。PG算法的目的是使得策略πθ的期望最大化。

经过推导的：

之后利用梯度上升更新θ∗。

TPRO算法

如果使用PG算法，当策略网络是深度模型时，沿着策略梯度更新参数，如果步长选择不合理就会导致步长突然变差，从而影响训练效果。

为了解决这一问题，在更新参数时需要找到一个信任区域，在这个区域里更新策略时能够得到策略性能的安全性保证，这就是TPRO的主要思想。

设当前状态的策略为πθ，我们需要对θ进行优化从而找到J(θ')≥J(θ)。由于初始状态的S0的分布与策略无关，所以J(θ)的期望值如下：

上图将时序差分残差定义为优势函数A:

为了保证新旧策略足够接近，TRPO 使用KL散度来衡量策略之间的距离，整体优化公式如下：

PPO算法

TPRO算法运算量非常大，因此提出了PPO算法，PPO 的优化目标与 TRPO 相同，但它利用了PPO-惩罚或PPO-截断来进行优化。

PPO惩罚：

PPO截断：

华丽的虚伪-

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
强化学习（DQN、TPRO、PPO）

DQN、TRPO及PPO算法的简单理解
复制链接

扫一扫

华丽的虚伪- CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

168万+: 周排名

184万+: 总排名

3058: 访问

: 等级

23: 积分

1: 粉丝

1: 获赞

2: 评论

9: 收藏

私信

关注

热门文章

最新评论

SpringSecurity与JWT鉴权
CSDN-Ada助手: 非常欣赏您的学习和分享精神，继续写博客是非常棒的选择。对于与SpringSecurity和JWT鉴权相关的扩展知识和技能，您可以深入了解OAuth2.0协议和OpenID Connect标准，这些都是Web应用程序安全和认证领域的重要技术。同时，也可以了解一下SpringBoot和SpringCloud等相关的框架，这些框架在分布式应用程序中的安全性和认证方面也有很多实践和经验可以借鉴。期待您的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
强化学习（DQN、TPRO、PPO）
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

最新文章

SpringSecurity与JWT鉴权

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。