初探强化学习（1）蒙特卡洛采样

最新推荐文章于 2024-07-14 22:24:19 发布

难受啊！马飞...

最新推荐文章于 2024-07-14 22:24:19 发布

阅读量690

点赞数

分类专栏：强化学习文章标签：强化学习

原文链接：https://zhuanlan.zhihu.com/p/338103692

版权

强化学习专栏收录该内容

25 篇文章 32 订阅

订阅专栏

文本从这个网页搬来的：https://zhuanlan.zhihu.com/p/338103692

1. 蒙特卡洛的概念

蒙特卡洛原来是一个赌场的名称，用它作为名字大概是因为蒙特卡洛方法是一种随机模拟的方法，这很像赌博场里面的扔骰子的过程。最早的蒙特卡洛方法都是为了求解一些不太好求解的求和或者积分问题

例如下图是一个经典的用蒙特卡洛求圆周率的问题，用计算机在一个正方形之中随机的生成点，计数有多少点落在1/4圆之中，这些点的数目除以总的点数目即圆的面积，根据圆面积公式即可求得圆周率。
在这里插入图片描述
蒙特卡洛算法的另一个应用是求积分，某些函数的积分不好求，我们可以按照下面的方法将这个函数进行分解，之后转化为求期望与求均值的问题。

2.蒙特卡洛采样方法

对某一种概率分布p(x)进行蒙特卡洛采样的方法主要分为直接采样、拒绝采样与重要性采样三种，下面分别予以介绍。

2.1 直接采样

直接采样的方法是根据概率分布进行采样。对一个已知概率密度函数与累积概率密度函数的概率分布，我们可以直接从累积分布函数（cdf）进行采样

如下图所示是高斯分布的累积概率分布函数，可以看出函数的值域是(0, 1)，我们可以从U(0, 1)均匀分布中进行采样，再根据累积分布函数的反函数计算对应的x，这样就获得了符合高斯分布的N个粒子
在这里插入图片描述
使用累积分布函数进行采样看似简单，但是由于很多分布我们并不能写出概率密度函数与累积分布函数，所以这种方法的适用范围较窄。

2.2 接受-拒绝采样

对于累积分布函数未知的分布，我们可以采用接受-拒绝采样。如下图所示，p(z)是我们希望采样的分布，q(z)是我们提议的分布(proposal distribution)，令kq(z)>p(z)，我们首先在kq(z)中按照直接采样的方法采样粒子，接下来判断这个粒子落在图中什么区域，对于落在灰色区域的粒子予以拒绝，落在红线下的粒子接受，最终得到符合p(z)的N个粒子

在这里插入图片描述

2.3 重要性采样

接受拒绝采样完美的解决了累积分布函数不可求时的采样问题。但是接受拒绝采样非常依赖于提议分布(proposal distribution)的选择，如果提议分布选择的不好，可能采样时间很长却获得很少满足分布的粒子。而重要性采样就解决了这一问题

直接采样与接受拒绝采样都是假设每个粒子的权重相等，而重要性采样则是给予每个粒子不同的权重，使用加权平均的方法来计算期望。
在这里插入图片描述

3. 总结

蒙特卡洛方法是一种近似推断的方法，通过采样大量粒子的方法来求解期望、均值、面积、积分等问题，蒙特卡洛对某一种分布的采样方法有直接采样、接受拒绝采样与重要性采样三种，直接采样最简单，但是需要已知累积分布的形式。接受拒绝采样与重要性采样适用于原分布未知的情况，这两种方法都是给出一个提议分布，不同的是接受拒绝采样对不满足原分布的粒子予以拒绝，而重要性采样则是给予每个粒子不同的权重，大家可以根据不同的场景使用这三种方法中的一种进行采样。