(202401)深度强化学习基础2：策略梯度

最新推荐文章于 2024-06-14 01:24:18 发布

早上真好

最新推荐文章于 2024-06-14 01:24:18 发布

阅读量464

点赞数 10

分类专栏：参与dw开源学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/raw_inputhello/article/details/135720159

版权

参与dw开源学习专栏收录该内容

26 篇文章 2 订阅

订阅专栏

文章目录

前言
策略梯度

前言

感谢Datawhale成员的开源本次学习内容的文档地址为第九章策略梯度

策略梯度

这个章节会开始介绍基于策略梯度的算法。前面的算法都是针对“奖励”或者说“回报（reward）”的，而这次的则是直接对策略本身进行近似优化。这与之前的差别很大，我这里也大约明白了一点为什么任务一直接让人跳到DQN但是却不跳过第二章“马尔克夫决策过程”，因为马尔科夫决策过程是前面介绍过的全部强化学习算法的基础，它提供了可量化的指标从而能够从数学上优化决策。而现在我们大约是将会被介绍一种不同于“马尔科夫决策过程”的方法了！

但是根据我后面看到的内容，我发现并不是这样（QAQ），策略梯度算法也是需要使用“价值”的；具体的容我下面试图理解。

这个方法的粗略描述是，将策略描述成一个带有参数 $\theta$ 的连续函数，某个状态是输出，对应的动作概率分布是输出，乘坐随机性策略。但是看到这里，依然不理解是怎样进行优化的；或许数学功底足够好的人看到“描述成连续函数”就能够恍然大悟，但是我是不理解的，还需要继续看下去。

1 基于价值算法的缺点

无法表示连续动作：可以理解为其实之前的都是一个选择，比如跳格子，前进一步、两步、三步；而实际上机器人的运动控制基本都是连续动作空间。虽然在使用的时候可以把连续的离散化，反正如果是我的话，就凑合着过呗——但是既然现在知道有这样一种能表示连续动作空间的，那就要努力接受。
高方差：基于价值的方法通常都是通过采样的方式来估计价值函数，这样会导致估计的方差很高，从而影响算法的收敛性。然后后面提到改进的DQN算法如改善经验回放、目标网络的方式都可以在一定程度上减小方差，但是不能解决问题。
探索与利用的平衡问题：这一段基本读不懂，请查阅原文，大概意思是说，DQN这些基于价值的算法一般用贪心来实现一定程度的随机，但是不够理想。

2 策略梯度算法

看这位佬的视频多少有一点理解了，这个东西我没法表达了，就不表达了（^ _ ^）。

3 REINFORCE算法

因为策略梯度实际操作起来求解是很困难的，所以要用蒙特卡罗策略梯度算法近似求解：采样一部分且数量足够多的轨迹，然后利用这些轨迹的平均值来近似求解目标函数的梯度。

呃呃，要不我们继续看视频吧。

本章小结

策略梯度算法是强化学习的另一大类算法，介绍了常见策略函数的设计方法，位后面Actor-Critic算法章节做铺垫。

关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
(202401)深度强化学习基础2：策略梯度

第九章策略梯度。
复制链接

扫一扫

专栏目录

早上真好 CSDN认证博客专家 CSDN认证企业博客

码龄2年

人工智能领域新星创作者

108: 原创

2万+: 周排名

2万+: 总排名

9万+: 访问

: 等级

1936: 积分

2615: 粉丝

705: 获赞

38: 评论

759: 收藏

私信

关注

热门文章

分类专栏

最新评论

【Git】已经在拉取时以HTTP的URL拉取的仓库使用SSH的URL进行push
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【Git】已经在拉取时以HTTP的URL拉取的仓库使用SSH的URL进行push
「已注销」: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
(202402)多智能体MetaGPT入门1：MetaGPT环境配置
早上真好: 考虑平台环境是否满足matagpt的要求
(202402)多智能体MetaGPT入门1：MetaGPT环境配置
幽幽浮浮: 执行：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e . Getting requirements to build wheel ... error error: subprocess-exited-with-error × Getting requirements to build wheel did not run successfully. │ exit code: 1 -------这个怎么处理？
如何升级ccache的版本 || 安装ccache
早上真好: 忘了提一嘴，ccache可执行文件是在ccache的github仓库的release里面下载的压缩包解压出来的。根据自己系统的架构选择下载压缩包。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

早上真好 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。