RL中的策略优化问题

最新推荐文章于 2024-02-13 23:12:14 发布

夏殇0808

最新推荐文章于 2024-02-13 23:12:14 发布

阅读量1k

点赞数

分类专栏：增强学习学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012328476/article/details/102924766

版权

文章目录

一、策略迭代
二、策略梯度
- 算法推导

一、策略迭代

如果使用值函数重新定义强化学习的目标，我们可以得到：RL就是找到最优的策略，使得每一个状态的价值最大化。相当于求解
$\pi^{*}=argmax_{a}q_{\pi^{*}}(s,a)$
而对于每一个状态对应的行为，我们希望找到使其价值最大化的行为：
$a^{*}=argmax_{a}q_{\pi^{*}}(s, a)$

可以看出为了求出最终的结果，我们需要同时更新交织在一起的策略与价值。这个问题有一个解决算法是策略迭代法。

只要能得到精确的值函数，就可以使用贝尔曼公式求出最优策略，也就是说最优策略满足上面提到的公式2。

二、策略梯度

策略梯度法不采用迂回的方式更新策略，而是直接计算策略可能更新的方向。

回到问题的本质，RL的目标是最大化长期回报期望，于是目标可以写成如下形式：

$\pi^{*}=\operatorname{argmax}_{\pi} E_{\boldsymbol{\tau} \sim \pi(\boldsymbol{\tau})}[r(\boldsymbol{\tau})]$

其中 $\tau$ 表示使用策略进行交互得到的一条轨迹， $r(\tau)$ 表示这条轨迹的总体回报。由于值函数也是一个函数，我们可以将之表示为策略参数的函数，然后就可以通过求导的方式，使参数沿着梯度上升的方向更新，也就是提升策略了。这就是利用梯度的方法进行策略优化。

算法推导

将上述目标函数用 $J(\theta)$ 表示，将轨迹的期望回报展开，可以得到

$J(\theta)=E_{\boldsymbol{\tau} \sim \pi_{\theta}(\tau)}[r(\boldsymbol{\tau})]=\int_{\boldsymbol{\tau} \sim \pi_{\theta}(\tau)} \pi_{\theta}(\boldsymbol{\tau}) r(\boldsymbol{\tau}) \mathrm{d} \boldsymbol{\tau}$

由于策略函数通常是定义良好的函数，所以求导运算可以和积分运算互换，这样可以得到

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄11年

160
原创

120
点赞

398
收藏

82
粉丝

关注

私信

热门文章

分类专栏

笔记 10篇
家具摆放 2篇
NLG 35篇
联邦学习 1篇
pytorch 1篇
增强学习 6篇
工具类
tornado 1篇
学习笔记 122篇
python练习 6篇
machine learning 8篇
书摘 4篇
cpp 13篇
spark 6篇
git 3篇
SQL 9篇
installation questions 1篇
Linux 10篇
leetcode 3篇
algorithm 9篇
unsolved 1篇

最新评论

论文阅读-InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
源码阅读-CVAE模型
dream collector.: 请不要抄苏剑林的文章
源码阅读-CVAE模型
Zoe_807: 大佬，源码可以发我一份嘛？
chatgpt在复杂问题的回答表现
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/615562980。
chatgpt在复杂问题的回答表现
CSDN-Ada助手: 一定要坚持创作更多高质量博客哦, 小小红包, 以资鼓励, 更多创作活动请看: 职场解惑讨论会: https://activity.csdn.net/creatActivity?id=10427?utm_source=csdn_ai_ada_redpacket Microsoft Edge功能测评！: https://activity.csdn.net/creatActivity?id=10403?utm_source=csdn_ai_ada_redpacket 程序员有哪些绝对不能踩的坑？: https://activity.csdn.net/creatActivity?id=10433?utm_source=csdn_ai_ada_redpacket 全部创作活动: https://mp.csdn.net/mp_blog/manage/creative?utm_source=csdn_ai_ada_redpacket

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。