强化学习算法总结 3（截止PPO2）

最新推荐文章于 2024-07-12 22:49:40 发布

伊斯坦布尔的毛兔子

最新推荐文章于 2024-07-12 22:49:40 发布

阅读量148

点赞数

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44600017/article/details/132710475

版权

强化学习算法总结 3

8 策略梯度

**基于价值：**Q-learning 是处理有限状态的，而DQN可以解决连续状态的问题

通过对值函数的学习，学习值函数，然后根据值函数导出一定的策略

**基于策略：**通过显式去学习策略

8.1 策略梯度

策略学习的目标函数：

是一个在线的算法，必须使用当前策略，采集到的数据来更新梯度

输入一个状态，输出是一个动作的概率分布：寻找一个最有策略，并且最大化这个策略的回报
$J(\theta) = E_s[V^\pi(s)]$

8.2 REINFORCE

收集整条序列的策略轨迹，然后使用MC进行更新
$policy\ net：\\ \\ for\ i\ in\ range（序列个数）：\\ 采样\\ 从最后向前计算MC回报\\ 更新参数\\$

9. actor-critic

$梯度\\ g = E[\sum^T_{t=0}\psi_t\nabla_\theta log(\pi(a|s))] \\ \psi_t可以是很多形式：Q，轨迹回报，baseline，Advantage\ function ，TD\_error(价值函数)$

10 TRPO &PPO

**TRPO：**对于ac沿着梯度进行更新，这种方法可能会让收敛效果变差，所以在旧策略的小范围内进行更新。

**PPO：**对于TRPO的复杂情况，这里1：把KLD加到了策略梯度里面。2：截断

伊斯坦布尔的毛兔子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习算法总结 3（截止PPO2）

*基于价值：**Q-learning 是处理有限状态的，而DQN可以解决连续状态的问题通过对值函数的学习，学习值函数，然后根据值函数导出一定的策略**基于策略：**通过显式去学习策略。
复制链接

扫一扫

伊斯坦布尔的毛兔子 CSDN认证博客专家 CSDN认证企业博客

码龄5年

35: 原创

40万+: 周排名

137万+: 总排名

1万+: 访问

: 等级

461: 积分

24: 粉丝

27: 获赞

18: 评论

78: 收藏

私信

关注

热门文章

分类专栏

最新评论

【无标题】
Anna_wjy: gym降级一直报错，去掉--user就可以了
神经网络（一）：GRNN广义回归神经网络理论概念笔记
2301_80150806: 作者您好，请问想要完全理解广义回归神经网络需要看那些书？
速通过tensorflow1.X
伊斯坦布尔的毛兔子: 您私信发我一下呗,我来看看
速通过tensorflow1.X
孙兔子: 前辈，你好，我今天按照您的方法，在colab里面降低tensorflow版本没有成功，% tensorflow那行代码直接标红，请问这个可以解决吗
深度学习_２
大家一起学编程（python）: 六六六

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。