Monte Carlo Approximations

最新推荐文章于 2024-10-10 17:24:11 发布

weixin_30519071

最新推荐文章于 2024-10-10 17:24:11 发布

阅读量485

点赞数 1

文章标签： matlab

原文链接：http://www.cnblogs.com/yinxiangnan-charles/p/4999549.html

版权

准备总结几篇关于 Markov Chain Monte Carlo 的笔记。

本系列笔记主要译自 A Gentle Introduction to Markov Chain Monte Carlo (MCMC) 文章下给出的链接。

Monte Carlo Approximations

Monte Carlo Approximation for Integration

理论部分

本文主要参考 Monte Carlo Approximations

蒙特卡洛方法是用来近似计算积分的，通过数值方法也可以计算积分：最简单的近似方法是通过求小矩边梯形的面积再累加。但是当函数的维度太高，变量数太多的时候，数值方法就不适用了，蒙特卡洛方法从概率学的角度进行积分的近似计算。

我们经常需要计算下面形式的积分：

\(I = \int_{a}^b h(x)g(x)dx\)

对于某些关于随机变量 \(X\) 的函数 \(f(x)\), 其期望值可以通过下面的公式计算：

\(E[x] = \int_{p(x)}p(x)f(x)dx\)

其中 \(p(x)\) 为变量\(X\) 的密度函数，它在定义域上的积分应该为1。

事实上，如果 \(g(x)\) 满足下面的条件：

1. 在区间 \((a,b)\) 上非负

\(g(x)\geqslant0, x\in(a,b)\)

2. 在区间上的积分有限

\(\int_a^b g(x)=C<\infty\)

那么，\(g(x)\) 就可以转换为密度函数

\(p(x)=\frac{g(x)}{C}\)

只需要在积分号前乘以相应的\(C\)，就可以保证原积分不变了。那么修改成密度函数后有什么好处呢？修改成密度函数的好处就是：可以通过随机模拟符合这个密度分布的变量\(x\)，来求出原积分的近似值：

根据大数定理：

\(E[f(X)] = \int f(x)p(x)dx \approx \frac{1}{S}\sum_{n=1}^S f(x_s)\)

其中\(x_s\sim p(X)\), 这一点很关键，也就是说，生成的随机数必须要符合密度函数为 \(p(X)\) 的分布，只有这样，计算出来的平均值才是积分的近似值。

为了对这种方法进行理论分析，下面给出两个定理：

大数定理 对于一个已知分布的随机序列，当取样数趋于无穷时，其均值趋向于期望。

事实上，在日常生活中我们常常是这么做的，比如统计一年级某门成绩的期望，我们可以随机选一些学生进行抽测，用他们的平均成绩来近似估计该年级的成绩期望，选的学生越多，其均值就越逼近真实期望值。

在统计背景下，\(A(n)\) 是 \(B\) 的一个一致估计量（consistent estimator），如果满足在 \(n\) 趋于无穷时，\(A(n)\) 收敛于 \(B\)，也就是说：对任意概率 \(P[0<P<1]\)，任意值 \(\delta\)，我们都可以找到 \(k\)，使得对任意 \(n>k\)， \(A(n)\) 与 \(B\) 的差距在 \(\delta\) 内的概率大于 \(P\)。

中心极限定理 大量独立随机变量的和近似服从正态分布。

假如我们有独立同分布(i.i.d)的随机变量 \(z_i\)，均值为 \(\mu\)，方差为 \(\sigma^2\)，n 个这样的变量的和记为 Y:

\(E(Y) = E(\sum\limits_{i=1}^n z_i) = \sum\limits_{i=1}^nE(z_i) = n\mu\)

\(var(Y) = var(\sum\limits_{i=1}^n z_i) = \sum\limits_{i=1}^n var(z_i) = n\sigma^2\)

对变量 Y 进行标准化：

\(\frac{Y-E(Y)}{\sqrt{var(Y)}}=\frac{Y-n\mu}{\sqrt{n}\sigma}\sim\mathcal{N}(0,1)\ as\ n\rightarrow \infty\)

也就是：

\(\frac{\sum\limits_{i=1}^n z_i-n\mu}{\sigma\sqrt{n}}\sim\mathcal{N}(0,1)\ as\ n\rightarrow \infty\)

因此，蒙特克洛方法的误差为：

可以看出：

1. 如果 \(f(x)\) 的方差是有限的，那么 MC 估计是一致的

2. MC 估计的误差是渐进无偏的

3. MC 估计的误差近似正态分布的

4. MC 估计误差的标准差是 \(\sigma=\frac{\sqrt{Var[f(x)]}}{\sqrt{n}}\)

同时，可以发现，MC 估计对数据的维度天然免疫，无论维度多大，只需要按分布函数生成随机变量，计算随机变量的函数值，计算这些函数值的均值，即可得到对积分的估计。由于误差的标准差越小，估计越精确，因此，我们可以通过增大取样数目 \(n\) 的方式来增大 MC 估计的准确性。另一个增加准确性的思路是降低 \(f(x)\) 的方差，这类方法称为 variance-reducing techniques 这里(我)不(没)做(看)介(懂)绍。

实例

1. 通过蒙特卡洛方法计算圆周率

通常的教程中介绍这个例子时会说：正方形中均匀生成的随机点落到圆内的概率为balabala，所以圆的面积比上正方形的面积为balabala，所以圆周率为balabala。这种方法固然好让人理解，但是如何严格地用公式表示这个过程呢？

圆的面积可以用下面的积分来获得：

其中在符合内部条件\(x^2+y^2\leq r^2\)时为1，在不符合内部条件时为0。也就是说，点在圆的内部时，函数值为1，点在圆外部时函数值为0。令 \(p(x)\)，\(p(y)\) 符合 \([-r,r]\) 上的均匀分布，因此，\(p(x)=p(y)=\frac{1}{2r}\)。

所以，根据蒙特卡洛积分，\(I = \int_{a}^b f(x)g(x)dx\) ,这里的 \(f(x)\) 转换为二维函数相当于 \(1(x^2+y^2\leq r^2)\)，\(g(x)\) 相当于 1，我们把它转化为二维的密度函数，也就是\(p(x,y)=p(x)\cdot p(y)=\frac{1}{4r^2}=\frac{g(x,y)}{4r^2}\)。

所以，

也就是，只需要生成 -r 到 r 均匀分布的横坐标和纵坐标，然后带入\(1(x^2+y^2\leq r^2)\) 判断其是否在圆内，在的话记为1，不在记为0，加和后除以点的总数，计算出落到圆内的概率，最后乘以 \(4r^2\) 求出圆的面积，知道了圆的面积，又知道半径了，自然也可以求出圆周率的近似值。

% Radious of circle
r = 1; 
S = 10000;
% Generate S points uniformly distributed points
x = unifrnd(-r,r,S,1);
y = unifrnd(-r,r,S,1);
% The points falled into the circle
fxy = (x.^2+y.^2-r^2<=0);
area = 4*r^2/S*sum(fxy);
pi_estimate = area/r^2;

% Visualization
figure;
inside = fxy; outside = logical(1-fxy);
scatter(x(inside),y(inside),15,'r','filled');
hold on;
scatter(x(outside),y(outside),15, 'b','filled');
axis equal;
xlim([-1,1]);
ylim([-1,1]);

2. 通过蒙特卡洛方法近似计算\(xe^x\) 的积分　　

我们想计算 \(I = \int_0^1 xe^xdx\) , 由分部积分公式，不难得到其积分值为1。下面通过蒙特卡洛方法求其近似值，看是否与1接近。

可以把\(f(x)\) 看成 \(xe^x\)，\(g(x)\) 看成 1，由于积分区间长度也是1，故概率分布的密度函数为\(p(x)=\frac{gx}{\int_0^1 g(x)dx}=1\)。

所以，根据上文的讨论，只需要在0到1中均匀取得随机数，然后带入\(f(x)=xe^x\) 中计算函数值，最后求均值即可得到积分的近似。

代码如下：

rng('default');
% 100 sample
S1 = 100;
x1 = unifrnd(0,1,S1,1);
y1 = x1.*exp(x1);
I1 = sum(y1)/S1;

% 10000 samples
S2 = 10000;
x2 = unifrnd(0,1,S2,1);
y2 = x2.*exp(x2);
I2 = sum(y2)/S2;

3. 计算beta分布的期望

关于Beta分布，详细的资料请移步百度文库，这里只介绍一点：beta分布含有两个参数 A，B。对于随机变量 \(X\sim Beta(A,B)\)，\(E(x)=\frac{A}{A+B}\)。

计算 Beta 分布的期望，使用如下公式:

\(E(x)=\int_{p(x)}p(x)xdx\), where \(x\sim Beta(\alpha_1\alpha_2)\)

1. 首先我们发现 \(f(x)=x\)，而\(p(x)\) 本身就是概率密度函数，所以不用进行转换。

2. 我们根据概率分布 \(p(x)=Beta(\alpha_1,\alpha_2)\) 来生成大量随机的点，然后带入 \(f(x)=x\)，求出其均值，即为 Beta 分布的期望。

rand('seed',12345);
alpha1 = 2; alpha2 = 10;
N = 10000;
x = betarnd(alpha1,alpha2,1,N);%生成10000个按Beta分布的点
 
% MONTE CARLO EXPECTATION
expectMC = mean(x);%由MC方法算出的期望近似值
 
% ANALYTIC EXPRESSION FOR BETA MEAN
expectAnalytic = alpha1/(alpha1 + alpha2);%Beta分布的理论期望值
 
% DISPLAY
figure;
bins = linspace(0,1,50);%将[0,1]区间分成50份，最后一份是大于50的部分
counts = histc(x,bins);%统计每个小区间内落入的随机点的数目
probSampled = counts/sum(counts);%Beta分布的点落入每个小区间对应的概率
probTheory = betapdf(bins,alpha1,alpha2);%每个区间点的理论概率密度值
b = bar(bins,probSampled); colormap hot; hold on;%概率分布直方图，注意这里每个竖条代表的是对应区间的概率，不是概率密度。当它除以区间长度时才是概率密度
t = plot(bins,probTheory/sum(probTheory),'r','Linewidth',2)%这里probTheory/sum(probTheory)相当于是probTheory*dx，因为sum(probTheory*dx)=1, dx=1/sum(probTheory)
m = plot([expectMC,expectMC],[0 .1],'g')%期望的近似值
e = plot([expectAnalytic,expectAnalytic],[0 .1],'b')%期望的理论值
xlim([expectAnalytic - .05,expectAnalytic + 0.05])
legend([b,t,m,e],{'Samples','Theory','$\hat{E}$','$E_{Theory}$'},'interpreter','latex');
title(['E_{MC} = ',num2str(expectMC),'; E_{Theory} = ',num2str(expectAnalytic)])
hold off

从图中我们可以看到两条竖线十分接近，也就是说由样本估计的均值十分接近真实值。

Monte Carlo approximation for optimization

蒙特卡洛方法还可以用来求解优化问题：

\(x_{opt}=\arg\max g(x)\)

如果 \(g(x)\) 满足之前提到的两条性质：1. 非负 2. 积分有限

那么，就可以将其放缩为密度函数：

\(p(x) = \frac{g(x)}{C}\)

其中 \(C = \int_x g(x) dx\)

原优化问题变形为：

\(x_{opt}=\arg\max\limits_x Cp(x)\)

以 \(p(x)\) 为概率密度函数生成随机数，那么，在随机数密度最大的地方，对应的密度函数必然也是最大的，而密度函数与目标函数之间只差一个常数的放缩，故而该位置也是目标函数最大的地方，也就是说，这一点就是优化问题的近似解。

实例

求解优化问题 \( x_{opt}=\arg\max\limits_x e^{-\frac{(x-4)^2}{2}}\)

通过求导，令导函数为零，可以求得极值点为 x=4。

同时可以观察到，被优化函数\(g(x)\)与正态分布只差了一个参数：\( \sqrt{2\pi}\)

原问题可以变形为：

其中\(C=\sqrt{2\pi}\)。

因此，可以借助matlab生成均值为4，方差为1的正态分布随机变量，然后找出其密度函数最大的点对应的横坐标，此即为优化问题的解。

代码如下：

% MONTE CARLO OPTIMIZATION OF exp(x-4)^2
randn('seed',12345)
 
% INITIALZIE
N = 100000;
x = 0:.1:6;
C = sqrt(2*pi);
g = inline('exp(-.5*(x-4).^2)','x');
ph = plot(x,g(x)/C,'r','Linewidth',3); hold on%画出密度函数
gh = plot(x,g(x),'b','Linewidth',2); hold on;%画出待优化函数
y = normpdf(x,4,1);
 
% CALCULATE MONTE CARLO APPROXIMATION
x = normrnd(4,1,1,N);
bins = linspace(min(x),max(x),100);%生成100个随机区间
counts = histc(x,bins);%统计100个区间中每一个区间落入的随机点数
[~,optIdx] = max(counts);%找到落入点最多的区间的下标
xHat = bins(optIdx);%找到优化问题的近似解
 
% OPTIMA AND ESTIMATED OPTIMA
oh = plot([4 4],[0,1],'k');
hh = plot([xHat,xHat],[0,1],'g');
 
set(gca,'fontsize',16)
legend([gh,ph,oh,hh],{'g(x)','$p(x)=\frac{g(x)}{C}$','$x_{opt}$','$\hat{x}$'},'interpreter','latex','Location','Northwest');