Probabilistic Machine Learning：Introduction 概率机器学习：简介- 2 概率：一元模型（5）-page 99-106/858

最新推荐文章于 2024-09-29 11:42:14 发布

王知为

最新推荐文章于 2024-09-29 11:42:14 发布

阅读量862

点赞数 19

文章标签：机器学习概率论人工智能

本文链接：https://blog.csdn.net/oneway3124/article/details/136183603

版权

2.8.4 仿射变换的矩
假设 ( f ) 是一个仿射函数，即 ( y = Ax + b )。在这种情况下，我们可以轻松推导 ( y ) 的均值和协方差。首先，对于均值，我们有
[ E[y] = E[Ax + b] = A\mu + b ]
其中 ( \mu = E[x] )。如果 ( f ) 是一个标量函数，即 ( f(x) = a^Tx + b )，相应的结果是
[ E \left[ a^Tx + b \right] = a^T\mu + b ]
对于协方差，我们有
[ \text{Cov}[y] = \text{Cov}[Ax + b] = A\Sigma A^T ]
其中 ( \Sigma = \text{Cov}[x] )。我们将其证明留作练习。

作为一个特例，如果 ( y = a^Tx + b )，我们得到
[ V[y] = V \left[ a^Tx + b \right] = a^T\Sigma a ]
例如，要计算两个标量随机变量之和的方差，我们可以设置 ( a = [1, 1] ) 得到
[ V[x_1 + x_2] = ]

在这里插入图片描述
表2.4：用y = [5, 6, 7]离散卷积x = [1, 2, 3, 4]得到z = [5, 16, 34, 52, 45, 28]。一般情况下，[ z_n = \sum_{k=-\infty}^{\infty} x_k y_{n-k} ]。我们可以看到，这个操作包括对y进行“翻转”，然后在x上“拖动”，逐元素相乘，并将结果相加。

2.8.5 卷积定理
设 ( y = x_1 + x_2 )，其中 ( x_1 ) 和 ( x_2 ) 是独立的随机变量。如果这些是离散随机变量，我们可以计算和的概率质量函数如下：
[ p(y = j) = \sum_k p(x_1 = k) p(x_2 = j - k) ]
对于 ( j = \ldots, -2, -1, 0, 1, 2, \ldots )。

如果 ( x_1 ) 和 ( x_2 ) 具有概率密度函数 ( p_1(x_1) ) 和 ( p_2(x_2) )，那么 ( y ) 的分布是什么？ ( y ) 的累积分布函数由以下公式给出：
[ P_y(y^) = \Pr(y \leq y^) = \int_{-\infty}^{\infty} p_1(x_1) \left( \int_{-\infty}^{y* - x_1} p_2(x_2) , dx_2 \right) , dx_1 ]
在这里，我们在 ( x_1 + x_2 < y^* ) 的区域上进行积分。因此，( y ) 的概率密度函数为
[ p(y) = \left. \frac{d}{dy^} P_y(y^) \right|{y^*=y} = \int p_1(x_1)p_2(y - x_1) , dx_1 ]
其中我们使用了在积分符号下的微分法则：
[ \frac{d}{dx} \int{a(x)}^{b(x)} f(t) , dt = f(b(x)) \frac{db(x)}{dx} - f(a(x)) \frac{da(x)}{dx} ]
我们可以将方程（2.170）写成：
[ p = p_1 * p_2 ]
其中 * 代表卷积操作。对于有限长度的向量，积分变为求和，卷积可以被认为是一种“翻转和拖动”的操作，如表2.4所示。因此，方程（2.170）被称为卷积定理。

例如，假设我们掷两个骰子，因此 ( p_1 ) 和 ( p_2 ) 都是离散均匀分布。

在这里插入图片描述
Figure 2.22: 两次掷骰子之和的分布，即 ( p(y) )，其中 ( y = x_1 + x_2 ) 且 ( x_i ) 服从离散均匀分布 ({1, 2, \ldots, 6})。
来源：https://en.wikipedia.org/wiki/Probability_distribution。感谢Wikipedia作者Tim Stellmach的友好许可。

在 {1, 2, . . . , 6} 上。令 ( y = x_1 + x_2 ) 为两次掷骰子的总和。我们有：

[ p(y = 2) = p(x_1 = 1)p(x_2 = 1) = \frac{1}{6} \cdot \frac{1}{6} = \frac{1}{36} ]
[ p(y = 3) = p(x_1 = 1)p(x_2 = 2) + p(x_1 = 2)p(x_2 = 1) = \frac{1}{6} \cdot \frac{1}{6} + \frac{1}{6} \cdot \frac{1}{6} = \frac{2}{36} ]
[ \ldots ]

继续这样计算，我们得到 ( p(y = 4) = \frac{3}{36} )、( p(y = 5) = \frac{4}{36} )、( p(y = 6) = \frac{5}{36} )、( p(y = 7) = \frac{6}{36} )、( p(y = 8) = \frac{5}{36} )、( p(y = 9) = \frac{4}{36} )、( p(y = 10) = \frac{3}{36} )、( p(y = 11) = \frac{2}{36} ) 和 ( p(y = 12) = \frac{1}{36} )。请参见图2.22以查看图表。我们可以看到，该分布看起来像一个高斯分布；我们将在第2.8.6节中解释这个现象。

我们还可以计算两个连续随机变量之和的概率密度函数。例如，在高斯分布的情况下，其中 ( x_1 \sim N(\mu_1, \sigma_1^2) ) 且 ( x_2 \sim N(\mu_2, \sigma_2^2) )，可以证明（练习2.4）如果 ( y = x_1 + x_2 )，则

[ p(y) = N(x_1|\mu_1, \sigma_1^2) \otimes N(x_2|\mu_2, \sigma_2^2) = N(y|\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2) ]

因此，两个高斯分布的卷积是一个高斯分布。

2.8.6 中心极限定理

现在考虑具有概率密度函数（不一定是高斯分布）的 N 个随机变量 ( p_n(x) )，每个都具有均值 ( \mu ) 和方差 ( \sigma^2 )。我们假设每个变量都是独立且同分布的，即 ( X_n \sim p(X) ) 是来自相同分布的独立样本。令 ( S_N = \sum_{n=1}^{N} X_n ) 为这些随机变量的和。可以证明，随着 N 的增加，这个和的分布趋近于

[ p(S_N = u) = \frac{1}{\sqrt{2\pi N \sigma^2}} \exp \left( -\frac{(u - N\mu)^2}{2N\sigma2} \right) ]

在这里插入图片描述
Figure 2.23: 中心极限定理的图示。我们绘制了 ( \hat{\mu}s^N = \frac{1}{N} \sum{n=1}^{N} x_{ns} ) 的直方图，其中 ( x_{ns} \sim \text{Beta}(1, 5) )，对于 ( s = 1 : 10000 )。随着 ( N \rightarrow \infty )，分布趋向于高斯分布。 (a) ( N = 1 )。 (b) ( N = 5 )。改编自[Bis06]的图2.6。由centralLimitDemo.ipynb生成。

因此，数量 ( Z_N = \frac{{S_N - N\mu}}{{\sigma \sqrt{N}}} = \frac{{X - \mu}}{{\sigma/\sqrt{N}}} ) 的分布趋于标准正态分布，其中 ( X = \frac{{S_N}}{{N}} ) 是样本均值。这被称为中心极限定理。详细证明可参考 [Jay03, p222] 或 [Ric95, p169]。

在图2.23中，我们提供了一个例子，其中我们计算从 beta 分布中抽取的随机变量的样本均值。我们看到这个均值的抽样分布迅速趋向于高斯分布。

2.8.7 蒙特卡罗逼近

假设 ( x ) 是一个随机变量，而 ( y = f(x) ) 是 ( x ) 的某个函数。通常很难通过解析方法计算由此导致的分布 ( p(y) )。一个简单但强大的替代方法是从 ( x ) 的分布中抽取大量样本，然后使用这些样本（而不是分布本身）来近似 ( p(y) )。

例如，假设 ( x \sim \text{Unif}(-1, 1) )，且 ( y = f(x) = x^2 )。我们可以通过从 ( p(x) ) 中抽取许多样本（使用均匀随机数生成器），对它们进行平方，并计算得到的经验分布来近似 ( p(y) )，即

[ p_S(y) = \frac{1}{N_s} \sum_{s=1}^{N_s} \delta(y - y_s) ]

这只是一个等权重的“尖峰之和”，每个尖峰都位于其中一个样本上（参见第2.7.6节）。通过使用足够多的样本，我们可以相当好地近似 ( p(y) )。图2.24中有一个说明。

这种方法被称为分布的蒙特卡罗逼近（Monte Carlo approximation）。术语“蒙特卡罗”来自摩纳哥一个著名的赌场的名字。蒙特卡罗技术最初在统计物理学领域发展，特别是在原子弹的研制过程中被广泛使用，但现在在统计学和机器学习领域也得到了广泛应用。更多细节可在本书的续篇 [Mur23] 中找到，以及专门介绍该主题的书籍中，如 [Liu01; RC04; KTB11; BZ20]。