Probabilistic Machine Learning:Introduction 概率机器学习:简介- 2 概率:一元模型(4)-page 91-99 /858 2.7

在这一部分,我们简要介绍了本书中将要使用的其他一些单变量分布。

2.7.1 学生 t 分布

高斯分布对异常值比较敏感。作为对高斯分布的健壮替代,我们将介绍学生 t 分布,简称学生分布。

其概率密度函数(pdf)如下:
[ T(y | \mu, \sigma^2, \nu) \propto \left(1 + \frac{1}{\nu} \left(\frac{(y - \mu)}{\sigma}\right)2\right){-\frac{\nu + 1}{2}} ]
其中 (\mu) 是均值,(\sigma > 0) 是尺度参数(不是标准差),(\nu > 0) 被称为自由度(尽管更好的术语可能是正常度 [Kru13],因为较大的 (\nu) 使分布的行为类似于高斯分布)。

在这里插入图片描述
Figure 2.16: 描述异常值对拟合高斯、学生 t 和拉普拉斯分布的影响的图示。 (a) 无异常值(高斯分布和学生 t 分布的曲线重合)。 (b) 存在异常值。我们可以看到高斯分布受异常值的影响更大,而学生 t 分布和拉普拉斯分布受影响较小。 改编自 [Bis06] 的图 2.16。由 robust_pdf_plot.ipynb 生成。

我们看到概率密度随着距离中心的平方距离的多项式函数而衰减,而不是指数函数,因此尾部有更多的概率质量,如图 2.15 所示。我们说学生 t 分布具有重尾巴,这使得它对异常值具有鲁棒性。

为了说明学生 t 分布的鲁棒性,考虑图 2.16。在左侧,我们展示了拟合到一些无异常值数据的高斯和学生 t 分布。在右侧,我们添加了一些异常值。我们看到高斯受到了很大的影响,而学生 t 分布几乎没有变化。我们将在第 11.6.2 节中讨论如何使用学生 t 分布进行鲁棒线性回归。

供以后参考,我们注意到学生 t 分布具有以下特性:
均值 = µ,众数 = µ,方差 =νσ2,(ν − 2) (2.131)
只有当 ν > 1 时均值才有定义。只有当 ν > 2 时方差才有定义。对于 ν 5,学生 t 分布迅速趋于高斯分布,失去了其鲁棒性质。通常使用 ν = 4,在许多问题中都能取得良好的性能 [LLT89]。

2.7.2 柯西分布
如果 ν = 1,则学生 t 分布称为柯西或洛伦兹分布。其概率密度函数定义如下:
C(x|µ, γ) = 1
γπ "
1 +
x − µ
γ2 −1
(2.132)
与高斯相比,该分布的尾部非常重。例如,标准正态分布的值的 95% 位于 -1.96 到 1.96 之间,但对于标准柯西分布,它们位于 -12.7 到 12.7 之间。实际上,尾巴非常重,使得定义均值的积分不收敛。

半柯西分布是柯西分布(其中 µ = 0)的一个版本,它在自身上“折叠”,因此其所有概率密度都在正实数上。因此,它具有以下形式:
[ C^+(x|γ) = \frac{2}{\piγ} \left(1 + \frac{x2}{γ2}\right)^{-1} ]

在贝叶斯建模中,这在我们想要使用在正实数上具有重尾部但在原点具有有限密度的分布时很有用。

2.7.3 拉普拉斯分布
另一个具有重尾部的分布是拉普拉斯分布,也称为双指数分布。其概率密度函数如下:
[ Laplace(y|µ, b) = \frac{1}{2b} \exp \left(-\frac{|y - µ|}{b}\right) ]
见图 2.15 进行绘制。这里 µ 是位置参数,( b > 0 ) 是尺度参数。该分布具有以下特性:
均值 = µ,众数 = µ,方差 = ( 2b^2 )。

在第 11.6.1 节中,我们将讨论如何将拉普拉斯分布用于鲁棒线性回归,在第 11.4 节中,我们将讨论如何在稀疏线性回归中使用拉普拉斯分布。

2.7.4 Beta 分布
Beta 分布的支持区间为 [0, 1],定义如下:
[ Beta(x|a, b) = \frac{1}{B(a, b)} x^{a-1} (1 - x)^{b-1} ]
其中 ( B(a, b) ) 是 Beta 函数,定义如下:
[ B(a, b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} ]
其中 ( \Gamma(a) ) 是 Gamma 函数,定义如下:
[ \Gamma(a) = \int_0^{\infty} x^{a-1} e^{-x} dx ]
图 2.17a 显示了一些 Beta 分布的图。我们要求 ( a, b > 0 ) 以确保分布是可积的(即确保 ( B(a, b) ) 存在)。如果 ( a = b = 1 ),我们得到均匀分布。如果 ( a ) 和 ( b ) 都小于 1,则得到在 0 和 1 处有“尖峰”的双峰分布;如果 ( a ) 和 ( b ) 都大于 1,则分布是单峰的。

供以后参考,我们注意到该分布具有以下特性(练习 2.8):
均值 = ( \frac{a}{a + b} ),众数 = ( \frac{a - 1}{a + b - 2} ),方差 = ( \frac{ab}{(a + b)^2(a + b + 1)} )

在这里插入图片描述
图 2.17:(a)一些 Beta 分布。如果 ( a < 1 ),我们在左侧得到一个“尖峰”,如果 ( b < 1 ),我们在右侧得到一个“尖峰”。如果 ( a = b = 1 ),则分布是均匀的。如果 ( a > 1 ) 和 ( b > 1 ),则分布是单峰的。由 beta_dist_plot.ipynb 生成。(b)一些 Gamma 分布。如果 ( a \leq 1 ),众数位于 0 处,否则众数远离 0。随着速率 ( b ) 的增加,我们减小水平刻度,从而将所有内容向左和向上挤压。由 gamma_dist_plot.ipynb 生成。

2.7.5 伽玛分布
伽玛分布是用于正实数随机变量 ( x > 0 ) 的一种灵活分布。它是用两个参数定义的,称为形状 ( a > 0 ) 和速率 ( b > 0 ):
[ \text{Ga}(x|\text{shape} = a, \text{rate} = b) \propto \frac{b^a}{\Gamma(a)} x^{a-1} e^{-xb} ]
有时该分布以形状 ( a ) 和尺度 ( s = 1/b ) 作为参数:
[ \text{Ga}(x|\text{shape} = a, \text{scale} = s) \propto \frac{1}{s} \frac{a^a}{\Gamma(a)} x^{a-1} e^{-x/s} ]
图2.17b显示了伽玛概率密度函数的一些绘图。
供参考,该分布具有以下性质:
均值 ( = \frac{a}{b} ),众数 ( = \frac{a-1}{b} ),方差 ( = \frac{a}{b^2} )。
有几种分布只是伽玛分布的特殊情况,我们在下面进行讨论。

  • 指数分布。这由以下定义:
    [ \text{Expon}(x|\lambda) \propto \text{Ga}(x|\text{shape} = 1, \text{rate} = \lambda) ]
    该分布描述了泊松过程中事件发生的时间,即一个以恒定平均速率 ( \lambda ) 连续且独立发生事件的过程。

在这里插入图片描述
Figure 2.18: (a) N = 5个样本导出的经验概率密度函数(empirical pdf)的图示,(b) N = 5个样本导出的经验累积分布函数(empirical cdf)的图示。来源:https://bit.ly/3hFgi0e。获得Mauro Escudero的友好许可。

卡方分布。定义为
(\chi^2_\nu(x) = \text{Ga}(x|\text{shape} = \frac{\nu}{2}, \text{rate} = \frac{1}{2}))(2.144)
其中 (\nu) 称为自由度。这是平方高斯随机变量之和的分布。更准确地说,如果 (Z_i \sim \mathcal{N}(0, 1)),且 (S = \sum_{i=1}^\nu Z_i^2),那么 (S \sim \chi^2_\nu)。

  • 逆伽玛分布定义如下:
    (\text{IG}(x|\text{shape} = a, \text{scale} = b) = \frac{b^a}{\Gamma(a)} x^{-a-1} e^{-b/x})
    该分布具有以下性质:
    均值 = (\frac{b}{a - 1}),众数 = (\frac{b}{a + 1}),方差 = (\frac{b^2}{(a - 1)^2(a - 2)})(2.146)
    均值仅在 (a > 1) 时存在。方差仅在 (a > 2) 时存在。注意:如果 (X \sim \text{Ga}(\text{shape} = a, \text{rate} = b)),那么 (1/X \sim \text{IG}(\text{shape} = a, \text{scale} = b))。(注意在这种情况下 (b) 扮演两个不同的角色。)

经验分布
假设我们有一个包含 (N) 个样本 (D = {x^{(1)}, …, x^{(N)}}),这些样本来自分布 (p(X)),其中 (X \in \mathbb{R})。我们可以使用一组以这些样本为中心的 delta 函数(第 2.6.5 节)或“尖峰”来近似概率密度:
[ \hat{p}N(x) = \frac{1}{N} \sum{n=1}^{N} \delta_{x^{(n)}}(x) ](2.147)

这被称为数据集 (D) 的经验分布。图 2.18(a) 显示了一个 (N = 5) 的示例。

相应的累积分布函数由以下公式给出:
[ \hat{P}N(x) = \frac{1}{N} \sum{n=1}^{N} I {x^{(n)} \leq x} = \frac{1}{N} \sum_{n=1}^{N} u_{x^{(n)}}(x) ](2.148)
其中 (u_y(x)) 是以 (y) 为界的阶梯函数,定义如下:
[ u_y(x) = \begin{cases} 1 & \text{if } x \geq y \ 0 & \text{if } x < y \end{cases} ](2.149)
这可以被可视化为一个“阶梯状”,如图 2.18(b),其中高度为 (1/N) 的跳跃发生在每个样本处。

2.8 随机变量的变换*

假设 (x \sim p()) 是某个随机变量,(y = f(x)) 是它的某个确定性变换。在本节中,我们讨论如何计算 (p(y))。

2.8.1 离散情况

如果 (X) 是离散随机变量,我们可以通过简单地对所有 (x) 的概率质量求和来得到 (Y) 的概率质量函数:
[ p_Y(y) = \sum_{{x : f(x) = y}} p_X(x) ](2.150)
例如,如果 (f(X) = 1) 当 (X) 为偶数,否则 (f(X) = 0),且 (p_X(X)) 在集合 ({1, . . . , 10}) 上均匀分布,那么 (p_Y(1) = P{X \in {2,4,6,8,10}} p_X(x) = 0.5),因此 (p_Y(0) = 0.5)。注意,在这个例子中,(f) 是一个多对一的函数。

2.8.2 连续情况

如果 (X) 是连续的,我们不能使用方程(2.150),因为 (p_X(x)) 是一个密度,而不是概率质量函数,我们不能对密度求和。相反,我们使用累积分布函数(cdf),如下:
[ P_Y(y) \approx P{Y \leq y} = P{f(X) \leq y} = P{X \in {x | f(x) \leq y\

}} ](2.151)
如果 (f) 是可逆的,我们可以通过对 cdf 进行微分来推导 (y) 的概率密度函数,如下所示。如果 (f) 不可逆,我们可以使用数值积分或蒙特卡洛逼近。

2.8.3 可逆变换(双射)

在本节中,我们考虑单调函数的情况,因此是可逆的函数(请注意,函数是可逆的当且仅当它是双射)。在这种假设下,我们将看到 (y) 的概率密度函数有一个简单的公式(这可以推广到可逆但非单调的情况,但我们忽略了这种情况)。

在这里插入图片描述
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
图 2.19: (a) 将均匀概率密度通过函数 (f(x) = 2x + 1) 映射。 (b) 显示在 (f) 下如何映射两个附近的点 x 和 x + dx。如果 dy
dx > 0,函数在局部上是增加的,但如果 dy
dx < 0,则函数在局部上是减少的。 (在后一种情况下,如果 f(x) = y + dy,那么 f(x + dx) = y,因为通过 dx 增加 x 应该将输出减少 dy。) (x + dx > x)。摘自 [Jan18]。经 Eric Jang 同意使用。

Let’s break down the translation and explanation of the content:

2.8.3.1 变量的变换:标量情况

我们从一个例子开始。假设 (x \sim \text{Unif}(0, 1)),且 (y = f(x) = 2x + 1)。这个函数拉伸并平移概率分布,如图 2.19(a) 所示。现在让我们放大到一个点 (x) 和另一个无限接近的点,即 (x + dx)。我们看到这个区间被映射到 ((y, y + dy))。这些区间中的概率质量必须相同,因此 (p(x)dx = p(y)dy),因此 (p(y) = p(x)dx/dy)。然而,由于在保持概率不变方面 (dx/dy > 0) 或 (dx/dy < 0) 无关紧要,我们得到:

[ p_y(y) = p_x(x) \left| \frac{dx}{dy} \right| ]

所以

[ p(y) = p(x) \left| \frac{dx}{dy} \right| ]

现在考虑对于任意的 (p_x(x)) 和任意的单调函数 (f : \mathbb{R} \to \mathbb{R}) 的一般情况。令 (g = f^{-1}),(y = f(x)) 且 (x = g(y))。如果我们假设 (f : \mathbb{R} \to \mathbb{R}) 是单调递增的,我们得到:

[ P_y(y) = \Pr(f(X) \leq y) = \Pr(X \leq f^{-1}(y)) = P_x(f^{-1}(y)) = P_x(g(y)) ]

对其进行导数运算,我们得到:

[ p_y(y) = \frac{d}{dy} P_y(y) = \frac{d}{dy} P_x(x) = \frac{dx}{dy} \frac{d}{dx} P_x(x) = \frac{dx}{dy} p_x(x) ]

我们可以对 (f) 是单调递减的情况推导出类似的表达式(但符号相反)。为了处理一般情况,我们取绝对值得到:

[ p_y(y) = p_x(g(y)) \left| \frac{d}{dy} g(y) \right| ]

这被称为变量的变换公式。

在这里插入图片描述

2.8.3.2 变量的变换:多变量情况

我们可以将先前的结果扩展到多变量分布,具体如下。设 (f) 是一个将 (\mathbb{R}^n) 映射到 (\mathbb{R}^n) 的可逆函数,其逆为 (g)。假设我们想要计算 (y = f(x)) 的概率密度函数。类比于标量情况,我们有:

[ p_y(y) = p_x(g(y)) \left| \det[Jg(y)] \right| ]

其中 (Jg = \frac{dg(y)}{dy^T}) 是 (g) 的雅可比矩阵,(\left|\det J(y)\right|) 是在 (y) 处评估的雅可比矩阵行列式的绝对值(关于雅可比矩阵的讨论可参见第7.8.5节)。在练习3.6中,您将使用此公式推导多变量高斯分布的归一化常数。

图2.20以2D为例说明了这一结果,其中 (f(x) = Ax + b),其中 (A = \begin{bmatrix}a & c\ b & d\end{bmatrix})。我们看到单位正方形的面积变化因子为 (\det(A) = ad - bc),即平行四边形的面积。

作为另一个例子,考虑将密度从笛卡尔坐标 (x = (x_1, x_2)) 转换为极坐标 (y = f(x_1, x_2)),即 (g(r, \theta) = (r \cos \theta, r \sin \theta))。然后,

[ Jg = \begin{bmatrix}\frac{\partial x_1}{\partial r} & \frac{\partial x_1}{\partial \theta}\ \frac{\partial x_2}{\partial r} & \frac{\partial x_2}{\partial \theta}\end{bmatrix} = \begin{bmatrix}\cos \theta & -r \sin \theta\ \sin \theta & r \cos \theta\end{bmatrix} ]

[ \left|\det(Jg)\right| = |r \cos^2 \theta + r \sin^2 \theta| = |r| ]

因此,

[ p_{r, \theta}(r, \theta) = p_{x_1, x_2}(r \cos \theta, r \sin \theta) r ]

为了在几何上理解这一点,请注意图2.21中阴影区域的面积由以下公式给出:

[ \Pr(r \leq R \leq r + dr, \theta \leq \Theta \leq \theta + d\theta) = p_{r, \theta}(r, \theta)drd\theta ]

在极限情况下,这等于在区域中心的密度乘以区域的大小,即 (r dr d\theta)。因此,

[ p_{r, \theta}(r, \theta) dr d\theta = p_{x_1, x_2}(r \cos \theta, r \sin \theta) r dr d\theta ]

在这里插入图片描述
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图2.21:从极坐标到笛卡尔坐标的变量转换。阴影区域的面积为 (r dr d\theta)。改编自[Ric95]的图3.16。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值