重要性采样

最新推荐文章于 2024-07-19 16:33:18 发布

芝士小季

最新推荐文章于 2024-07-19 16:33:18 发布

阅读量22

点赞数

分类专栏：动手学强化学习文章标签：机器学习算法概率论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Demoo26/article/details/135001064

版权

动手学强化学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

重要性采样

离线策略学习

估计一个不同分布的期望

$\begin{aligned} \mathbb{E}_{x\sim p}{[f(x)]} &= \int_{x}{p(x)f(x)dx} \\ &= \int_{x}{q(x)\frac{p(x)}{q(x)}f(x)dx} \\ &= \mathbb{E}_{x\sim q}{\left[\frac{p(x)}{q(x)}f(x)\right]} \end{aligned}$

将每个实例的权重重新分配为 $\beta(x)=\frac{p(x)}{q(x)}$

使用重要性采样的离线策略蒙特卡洛

使用 策略 $\mu$ 产生的累计奖励评估 策略 $\pi$
根据两个策略之间的重要性比率（importance ratio）对累计奖励 $G_{t}$ 加权
每个片段乘以重要性比率

$\{s_{1},a_{1},r_{2},s_{2},a_{2},\dots,s_{T}\}\sim\mu$

$G^{\pi/\mu}_{t}=\frac{\pi(a_{t}|s_{t})}{\mu(a_{t}|s_{t})}\frac{\pi(a_{t+1}|s_{t+1})}{\mu(a_{t+1}|s_{t+1})}\cdots\frac{\pi(a_{T}|s_{T})}{\mu(a_{T}|s_{T})}G_{T}$

更新值函数以逼近修正的累计奖励值

${V(s_{t})}\leftarrow{V(s_{t})+\alpha{(G^{\pi/\mu}_{t}-V(s_{t}))}}$

无法在 $\pi$ 非零而 $\mu$ 为零时使用
重要性采样将显著增大方差（variance）

如果 $\mu(a|s)$ 非常小，那么会导致学习的variance会很大

$\frac{\pi(a|s)}{\mu(a|s)}\rightarrow\infty$

使用重要性采样的离线策略时序差分

使用策略 $\mu$ 产生的时序差分目标评估策略 $\pi$
根据重要性采样对时序差分目标 $r+\gamma V(s')$ 加权
仅需要一步来进行重要性采样修正

在这里插入图片描述

具有比蒙特卡洛重要性采样更低的方差
策略仅需在单步中被近似

使用重要性采样时会用什么方法避免 $\pi$ 非零而 $\mu$ 为零的问题呢？

一般使用一些平滑算法，例如拉普拉斯一类的平滑

$\hat{\alpha}=\frac{\pi(a|s)+\beta}{\mu(a|s)+\beta}$

这里的 $\beta$ 是平滑的超参数

还有一种就是clip，也就是ratio如果绝对值超过了某个阈值 $\alpha$ ，那就设置成这个 $\alpha$ 值（符号不变）
这些方法其实都是损失了一点点variance，来换来bias的巨大下降

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
重要性采样

估计一个不同分布的期望Ex∼pfx)]∫xpxfxdx∫xqxqxpxfxdxEx∼qqxpxfx将每个实例的权重重新分配为βxqxpx。
复制链接

扫一扫

专栏目录

芝士小季 CSDN认证博客专家 CSDN认证企业博客

码龄4年

14: 原创

135万+: 周排名

15万+: 总排名

4420: 访问

: 等级

184: 积分

41: 粉丝

41: 获赞

11: 评论

55: 收藏

私信

关注

热门文章

分类专栏

动手学强化学习 9篇

最新评论

CentOS包管理器yum和rpm
CSDN-Ada助手: 非常感谢您分享关于CentOS包管理器yum和rpm的知识，这篇博客内容非常实用。希望您能继续保持创作的热情，分享更多关于Linux系统的知识。或许下一步可以深入探讨一些高级的包管理技巧，或者是与其他Linux发行版的包管理器进行比较分析，这样会更加丰富您的博客内容。期待您的下一篇好文！
时间同步服务 Chrony 和 NTPd
CSDN-Ada助手: 恭喜您撰写了第13篇博客！时间同步服务 Chrony 和 NTPd 的内容非常有价值，对于需要了解时间同步的读者来说肯定是一篇很有帮助的文章。接下来，我建议您可以考虑撰写一些实际应用场景下的时间同步问题，或者是和其他系统服务的集成使用方法，这样能够让读者更好地理解和应用这些时间同步服务。期待您的下一篇文章！
Docker Desktop - Unexpected WSL error
CSDN-Ada助手: 恭喜您发布了第14篇博客！对于Docker Desktop出现意外的WSL错误，您的经验分享对读者们来说肯定是非常有帮助的。建议您在下一篇博客中可以尝试深入分析WSL错误的解决方法，或者分享更多关于Docker Desktop的使用技巧和注意事项。期待您的更多精彩内容！祝您创作顺利！
NFS Network File System 网络文件系统
CSDN-Ada助手: 恭喜你撰写了关于NFS网络文件系统的博客！你对这一主题的深入了解让我印象深刻。我希望你能继续分享关于网络系统的知识，并且建议你可以考虑添加一些实际应用案例或者是与其他文件系统的对比分析，这样可以让读者更好地理解NFS的优势和特点。期待你更多的精彩内容！
使用Nginx搭建CloudStack本地镜像站
CSDN-Ada助手: 恭喜您在博客上发布了第10篇文章！使用Nginx搭建CloudStack本地镜像站这个主题很有深度，对读者来说肯定是一次很棒的学习体验。接下来，希望您能继续分享更多关于Nginx和CloudStack的实践经验，或者可以考虑探讨一些相关的技术案例，让读者更好地理解和应用这些知识。期待您的下一篇作品！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。