什么是强化学习中的“重要性采样”？

最新推荐文章于 2024-05-13 22:56:25 发布

LRJ-jonas

最新推荐文章于 2024-05-13 22:56:25 发布

阅读量658

点赞数 1

文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55097528/article/details/128348301

版权

因为目前深度强化学习中大多数方法都是以Q-Learning为基础的，而Q-Learning又恰恰不需要重要性采样，所以导致很多人接触不到这个概念。

重要性采样的原始含义，然后讲述重要性采样在强化学习中扮演的角色，最后解释一下为什么Q-Learning、DQN、DDPG这些方法不需要重要性采样。

重要性采样是统计学中的一种采样方法，主要用在一些难以直接采样的数据分布上。我们首先看一个问题：

一言以蔽之：强化学习中不想通过p(x)来进行蒙特卡洛采样的时候，就用重要习惯采样。具体原因：

总结：更新目标的策略与更新所用的样本数据或估计所采用的策略保持一致就不用IS

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
什么是强化学习中的“重要性采样”？

因为目前深度强化学习中大多数方法都是以Q-Learning为基础的，而Q-Learning又恰恰不需要重要性采样，所以导致很多人接触不到这个概念。重要性采样的原始含义，然后讲述重要性采样在强化学习中扮演的角色，最后解释一下为什么Q-Learning、DQN、DDPG这些方法不需要重要性采样。重要性采样是统计学中的一种采样方法，主要用在一些难以直接采样的数据分布上。一言以蔽之：强化学习中不想通过p(x)来进行蒙特卡洛采样的时候，就用重要习惯采样。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

LRJ-jonas 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。