Probabilistic Machine Learning:Introduction 概率机器学习:简介- 2 概率:一元模型(5)-page 99-106/858

2.8.4 仿射变换的矩
假设 ( f ) 是一个仿射函数,即 ( y = Ax + b )。在这种情况下,我们可以轻松推导 ( y ) 的均值和协方差。首先,对于均值,我们有
[ E[y] = E[Ax + b] = A\mu + b ]
其中 ( \mu = E[x] )。如果 ( f ) 是一个标量函数,即 ( f(x) = a^Tx + b ),相应的结果是
[ E \left[ a^Tx + b \right] = a^T\mu + b ]
对于协方差,我们有
[ \text{Cov}[y] = \text{Cov}[Ax + b] = A\Sigma A^T ]
其中 ( \Sigma = \text{Cov}[x] )。我们将其证明留作练习。

作为一个特例,如果 ( y = a^Tx + b ),我们得到
[ V[y] = V \left[ a^Tx + b \right] = a^T\Sigma a ]
例如,要计算两个标量随机变量之和的方差,我们可以设置 ( a = [1, 1] ) 得到
[ V[x_1 + x_2] = ]

在这里插入图片描述
表2.4:用y = [5, 6, 7]离散卷积x = [1, 2, 3, 4]得到z = [5, 16, 34, 52, 45, 28]。一般情况下,[ z_n = \sum_{k=-\infty}^{\infty} x_k y_{n-k} ]。我们可以看到,这个操作包括对y进行“翻转”,然后在x上“拖动”,逐元素相乘,并将结果相加。

2.8.5 卷积定理
设 ( y = x_1 + x_2 ),其中 ( x_1 ) 和 ( x_2 ) 是独立的随机变量。如果这些是离散随机变量,我们可以计算和的概率质量函数如下:
[ p(y = j) = \sum_k p(x_1 = k) p(x_2 = j - k) ]
对于 ( j = \ldots, -2, -1, 0, 1, 2, \ldots )。

如果 ( x_1 ) 和 ( x_2 ) 具有概率密度函数 ( p_1(x_1) ) 和 ( p_2(x_2) ),那么 ( y ) 的分布是什么? ( y ) 的累积分布函数由以下公式给出:
[ P_y(y^) = \Pr(y \leq y^) = \int_{-\infty}^{\infty} p_1(x_1) \left( \int_{-\infty}{y* - x_1} p_2(x_2) , dx_2 \right) , dx_1 ]
在这里,我们在 ( x_1 + x_2 < y^* ) 的区域上进行积分。因此,( y ) 的概率密度函数为
[ p(y) = \left. \frac{d}{dy^} P_y(y^) \right|{y^*=y} = \int p_1(x_1)p_2(y - x_1) , dx_1 ]
其中我们使用了在积分符号下的微分法则:
[ \frac{d}{dx} \int
{a(x)}^{b(x)} f(t) , dt = f(b(x)) \frac{db(x)}{dx} - f(a(x)) \frac{da(x)}{dx} ]
我们可以将方程(2.170)写成:
[ p = p_1 * p_2 ]
其中 * 代表卷积操作。对于有限长度的向量,积分变为求和,卷积可以被认为是一种“翻转和拖动”的操作,如表2.4所示。因此,方程(2.170)被称为卷积定理。

例如,假设我们掷两个骰子,因此 ( p_1 ) 和 ( p_2 ) 都是离散均匀分布。

在这里插入图片描述
Figure 2.22: 两次掷骰子之和的分布,即 ( p(y) ),其中 ( y = x_1 + x_2 ) 且 ( x_i ) 服从离散均匀分布 ({1, 2, \ldots, 6})。
来源:https://en.wikipedia.org/wiki/Probability_distribution。感谢Wikipedia作者Tim Stellmach的友好许可。

在 {1, 2, . . . , 6} 上。令 ( y = x_1 + x_2 ) 为两次掷骰子的总和。我们有:

[ p(y = 2) = p(x_1 = 1)p(x_2 = 1) = \frac{1}{6} \cdot \frac{1}{6} = \frac{1}{36} ]
[ p(y = 3) = p(x_1 = 1)p(x_2 = 2) + p(x_1 = 2)p(x_2 = 1) = \frac{1}{6} \cdot \frac{1}{6} + \frac{1}{6} \cdot \frac{1}{6} = \frac{2}{36} ]
[ \ldots ]

继续这样计算,我们得到 ( p(y = 4) = \frac{3}{36} )、( p(y = 5) = \frac{4}{36} )、( p(y = 6) = \frac{5}{36} )、( p(y = 7) = \frac{6}{36} )、( p(y = 8) = \frac{5}{36} )、( p(y = 9) = \frac{4}{36} )、( p(y = 10) = \frac{3}{36} )、( p(y = 11) = \frac{2}{36} ) 和 ( p(y = 12) = \frac{1}{36} )。请参见图2.22以查看图表。我们可以看到,该分布看起来像一个高斯分布;我们将在第2.8.6节中解释这个现象。

我们还可以计算两个连续随机变量之和的概率密度函数。例如,在高斯分布的情况下,其中 ( x_1 \sim N(\mu_1, \sigma_1^2) ) 且 ( x_2 \sim N(\mu_2, \sigma_2^2) ),可以证明(练习2.4)如果 ( y = x_1 + x_2 ),则

[ p(y) = N(x_1|\mu_1, \sigma_1^2) \otimes N(x_2|\mu_2, \sigma_2^2) = N(y|\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2) ]

因此,两个高斯分布的卷积是一个高斯分布。

2.8.6 中心极限定理

现在考虑具有概率密度函数(不一定是高斯分布)的 N 个随机变量 ( p_n(x) ),每个都具有均值 ( \mu ) 和方差 ( \sigma^2 )。我们假设每个变量都是独立且同分布的,即 ( X_n \sim p(X) ) 是来自相同分布的独立样本。令 ( S_N = \sum_{n=1}^{N} X_n ) 为这些随机变量的和。可以证明,随着 N 的增加,这个和的分布趋近于

[ p(S_N = u) = \frac{1}{\sqrt{2\pi N \sigma^2}} \exp \left( -\frac{(u - N\mu)2}{2N\sigma2} \right) ]

在这里插入图片描述
Figure 2.23: 中心极限定理的图示。我们绘制了 ( \hat{\mu}s^N = \frac{1}{N} \sum{n=1}^{N} x_{ns} ) 的直方图,其中 ( x_{ns} \sim \text{Beta}(1, 5) ),对于 ( s = 1 : 10000 )。随着 ( N \rightarrow \infty ),分布趋向于高斯分布。 (a) ( N = 1 )。 (b) ( N = 5 )。改编自[Bis06]的图2.6。由centralLimitDemo.ipynb生成。

因此,数量 ( Z_N = \frac{{S_N - N\mu}}{{\sigma \sqrt{N}}} = \frac{{X - \mu}}{{\sigma/\sqrt{N}}} ) 的分布趋于标准正态分布,其中 ( X = \frac{{S_N}}{{N}} ) 是样本均值。这被称为中心极限定理。详细证明可参考 [Jay03, p222] 或 [Ric95, p169]。

在图2.23中,我们提供了一个例子,其中我们计算从 beta 分布中抽取的随机变量的样本均值。我们看到这个均值的抽样分布迅速趋向于高斯分布。

2.8.7 蒙特卡罗逼近

假设 ( x ) 是一个随机变量,而 ( y = f(x) ) 是 ( x ) 的某个函数。通常很难通过解析方法计算由此导致的分布 ( p(y) )。一个简单但强大的替代方法是从 ( x ) 的分布中抽取大量样本,然后使用这些样本(而不是分布本身)来近似 ( p(y) )。

例如,假设 ( x \sim \text{Unif}(-1, 1) ),且 ( y = f(x) = x^2 )。我们可以通过从 ( p(x) ) 中抽取许多样本(使用均匀随机数生成器),对它们进行平方,并计算得到的经验分布来近似 ( p(y) ),即

[ p_S(y) = \frac{1}{N_s} \sum_{s=1}^{N_s} \delta(y - y_s) ]

这只是一个等权重的“尖峰之和”,每个尖峰都位于其中一个样本上(参见第2.7.6节)。通过使用足够多的样本,我们可以相当好地近似 ( p(y) )。图2.24中有一个说明。

这种方法被称为分布的蒙特卡罗逼近(Monte Carlo approximation)。术语“蒙特卡罗”来自摩纳哥一个著名的赌场的名字。蒙特卡罗技术最初在统计物理学领域发展,特别是在原子弹的研制过程中被广泛使用,但现在在统计学和机器学习领域也得到了广泛应用。更多细节可在本书的续篇 [Mur23] 中找到,以及专门介绍该主题的书籍中,如 [Liu01; RC04; KTB11; BZ20]。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值