李宏毅强化学习视频学习笔记（二）——off-policy与重要度采样

最新推荐文章于 2024-05-22 18:04:37 发布

源氏失去了我的激素

最新推荐文章于 2024-05-22 18:04:37 发布

阅读量488

点赞数

分类专栏：强化学习学习日志文章标签：学习机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42421591/article/details/126284915

版权

学习日志同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

重要度采样是为了解决PG算法采样数据只是用一次造成数据浪费的情况或者策略P不易采样的状况。重要度采样使得从策略Q中采集到的样本，经过权重的计算修正得到策略P的样期望。

也就是说我们需要在原来的函数那里乘以一个权重来进行修正

虽然我们可以通过权重修正使得两个期望值相等，但是会发现遵循两个分布分样本方差很大，这就说明我们需要充分采样才可以保证数据的可用性。

结合PG算法的公式，我们可以得到下式

由于对于两个策略来说差异不能很大，因此状态s出现的概率差异不是很大，或者也可以理解说s出现的概率不好表示，因此我们去除掉

。

依据公式

我们可以得到梯度更新的函数为

回到当初的PG算法，梯度是用于策略更新的▽R，我们的目标是需要使得R最大化，因此我们的目标函数可以写成下式：

但是由于θ是不断更新的，我们又需要θ与θ'不要差太多，因此不能无休止地使用θ'需要及时地对两个策略进行调整，这就延申出了PPO

源氏失去了我的激素

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
李宏毅强化学习视频学习笔记（二）——off-policy与重要度采样

重要性采样用于PG算法的大致流程
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。