Probabilistic Machine Learning:Introduction 概率机器学习:简介- 2 概率:一元模型(3)-page 79-91 /858 2.6

在这里插入图片描述
图2.8:任何平面线描绘都在几何上与无限多个3D结构一致。取自[SA93]的图11。获得Pawan Sinha的亲切许可使用。

2.3.3 逆问题 *
概率论涉及根据对世界状态h的了解(或假设)来预测结果y的分布。相比之下,逆概率关注从观察结果中推断世界状态。我们可以将其看作是对h → y映射的反演。
例如,考虑从二维图像y中推断三维形状h,这是视觉场景理解中的经典问题。不幸的是,这是一个根本上不适定的问题,如图2.8所示,因为有多个可能的隐藏h与相同的观察y一致(参见例如[Piz01])。同样,我们可以将自然语言理解视为一个不适定的问题,在这个问题中,听者必须从说话者(通常含糊不清的)说出的话语中推断出意图h(参见例如[Sab21])。
为了解决这类逆问题,我们可以使用贝叶斯定理计算后验概率p(h|y),该后验概率给出了可能的世界状态的分布。这需要指定正向模型p(y|h)以及先验概率p(h),后者可用于排除(或降低权重)不切实际的世界状态。我们将在本书的后续部分,[Mur23]中更详细地讨论这个主题。

2.4 伯努利分布和二项分布
也许最简单的概率分布是伯努利分布,它可用于建模二元事件,如下所述。
2.4.1 定义
考虑抛一枚硬币,它正面朝上的概率为0 ≤ θ ≤ 1。
设Y = 1表示正面朝上的事件,设Y = 0表示硬币正面朝下的事件。因此,我们假设p(Y = 1) = θ,p(Y = 0) = 1 − θ。这被称为伯努利分布,并可以写成如下形式
[ Y \sim \text{Ber}(\theta) ] (2.66)

在这里插入图片描述
Figure 2.9: 二项分布的示例,其中N = 10,分别为 (a) θ = 0.25 和 (b) θ = 0.9。由 binom_dist_plot.ipynb 生成。

其中符号 ∼ 表示“从中抽样”或“分布为”,Ber是伯努利的缩写。该分布的概率质量函数(pmf)定义如下:
[ \text{Ber}(y|\theta) = \begin{cases}
1 - \theta & \text{if } y = 0 \
\theta & \text{if } y = 1
\end{cases} ]
(2.67)
(有关pmf的详细信息,请参阅第2.2.1节。)我们可以更简洁地写成:
[ \text{Ber}(y|\theta) = \theta^y (1 - \theta)^{1-y} ]
(2.68)
伯努利分布是二项分布的特例。为了解释这一点,假设我们观察到一组N个伯努利试验,表示为(y_n \sim \text{Ber}(\cdot|\theta)),对于 (n = 1 : N)。具体来说,可以将其看作是N次抛硬币。我们定义 (s) 为正面朝上的总次数,(s = \sum_{n=1}^N I(y_n = 1))。则 (s) 的分布由二项分布给出:
[ \text{Bin}(s|N, \theta) = \binom{N}{s} \theta^s (1 - \theta)^{N-s} ]
(2.69)
其中
[ \binom{N}{k} = \frac{N!}{(N - k)!k!} ]
(2.70)
是从N中选择k个项目的方式数(这称为二项式系数,发音为“N选择k”)。请参见图2.9,了解二项分布的一些示例。如果 (N = 1),则二项分布就变成了伯努利分布。

2.4.2 Sigmoid(逻辑)函数
当我们想要预测一个二元变量 (y \in {0, 1}) ,给定一些输入 (x \in X) 时,我们需要使用以下形式的条件概率分布:
[ p(y|x, \theta) = \text{Ber}(y|f(x; \theta)) ]
(2.71)

在这里插入图片描述
Figure 2.10: (a) Sigmoid(逻辑)函数 (\sigma(a) = (1 + e{-a}){-1})。 (b) Heaviside函数 (I(a > 0))。 由 activation_fun_plot.ipynb 生成。

在这里插入图片描述
Table 2.3: Sigmoid(逻辑)及相关函数的一些有用属性。请注意,logit函数是sigmoid函数的反函数,并具有定义域 [0, 1]。

其中 (f(x; \theta)) 是一个函数,用于预测输出分布的均值参数。我们将在第二部分至第四部分考虑许多不同类型的函数 (f)。

为了避免要求 (0 \leq f(x; \theta) \leq 1),我们可以让 (f) 成为一个无约束的函数,并使用以下模型:
[ p(y|x, \theta) = \text{Ber}(y|\sigma(f(x; \theta))) ]
(2.78)
这里 (\sigma()) 是sigmoid或logistic函数,定义如下:
[ \sigma(a) = \frac{1}{1 + e^{-a}} ]
(2.79)
其中 (a = f(x; \theta))。术语“sigmoid”意味着S形状:请参见图2.10a进行绘制。我们可以看到,sigmoid函数的取值范围在(0)和(1)之间。

在这里插入图片描述
Figure 2.11: 应用于鸢尾花数据集的一维、两类别版本的逻辑回归。 由 iris_logreg.ipynb 生成。 改编自 [Gér19] 的图4.23。

整个实数线映射到 [0, 1],这对于将输出解释为概率(因此是伯努利参数 θ 的有效值)是必要的。Sigmoid 函数可以被视为“软”版本的阶跃函数,阶跃函数的定义如下:
[H(a) , I(a > 0)]
如图2.10b所示。

将 Sigmoid 函数的定义代入方程 (2.78) 中,我们得到
[p(y = 1|x, θ) = \frac{1}{1 + e^{-a}} = \frac{e^a}{1 + e^a} = \sigma(a)]
[p(y = 0|x, θ) = 1 - \frac{1}{1 + e^{-a}} = \frac{1}{1 + e^a} = \sigma(-a)]

其中 (a) 等于对数几率,log(\left(\frac{p}{1-p}\right)),其中 (p = p(y = 1|x; θ))。为了看到这一点,注意到
[\log \left( \frac{p}{1 - p} \right) = \log \left( \frac{e^a}{1 + e^a} \right) = \log(e^a) = a]

逻辑函数或 Sigmoid 函数将对数几率 (a) 映射到 (p):
[p = \text{logistic}(a) = \sigma(a) = \frac{1}{1 + e^{-a}} = \frac{e^a}{1 + e^a}]

其逆被称为 logit 函数,将 § 映射到对数几率 (a):
[a = \text{logit}§ = \sigma^{-1}§ = \log \left( \frac{p}{1-p} \right)]

有关这些函数的一些有用属性,请参见表2.3。

二元逻辑回归使用条件伯努利模型,其中采用形式为 (f(x; \theta) = w^Tx + b) 的线性预测器。因此,该模型表示为
[p(y|x; \theta) = \text{Ber}(y|\sigma(w^Tx + b))]
(2.86)

换句话说,
[p(y = 1|x; \theta) = \sigma(w^Tx + b) = \frac{1}{1 + e{-(wTx+b)}}]
(2.87)
这被称为逻辑回归。

例如,考虑鸢尾花数据集的一维、两类版本,其中正类是“Virginica”,负类是“非Virginica”,我们使用的特征 (x) 是花瓣宽度。我们对这个数据集拟合了一个逻辑回归模型,并在图2.11中展示了结果。决策边界对应于 (x^) 的值,其中 (p(y = 1|x = x^, \theta) = 0.5)。在这个例子中,我们看到 (x^* \approx 1.7)。

当 (x) 离开这个边界时,分类器对类标的预测变得更加自信。

从这个例子中可以明显看出,为二元分类问题使用线性回归是不合适的。在这样的模型中,随着 (x) 向右移动,概率会增加到超过1,而向左移动则会减少到低于0。

有关逻辑回归的更多细节,请参阅第10章。

2.5 类别分布和多项式分布
为了表示在有限标签集 {1, . . . , C} 上的分布,我们可以使用分类分布,它是对具有 C > 2 个值的伯努利分布的一种推广。
2.5.1 定义
分类分布是具有每个类别一个参数的离散概率分布:
[ \text{Cat}(y|\theta) = \prod_{c=1}^{C} \theta_c^{I(y=c)} ]
换句话说,[ p(y = c|\theta) = \theta_c ]。请注意,参数受到约束,使得 (0 \leq \theta_c \leq 1) 且 (\sum_{c=1}^{C} \theta_c = 1);因此只有 C - 1 个独立参数。
我们可以通过将离散变量 y 转换为具有 C 个元素的 one-hot 向量的方式以另一种方式写出分类分布。其中除了与类别标签对应的条目之外,所有条目都为 0。 (“one-hot” 一词来自电气工程,其中将二进制向量编码为一组导线上的电流,可以是活动的(“hot”)或非活动的(“cold”)。)例如,如果 (C = 3),我们将类别 1、2 和 3 编码为 (1, 0, 0)、(0, 1, 0) 和 (0, 0, 1)。更一般地,我们可以使用单位向量对类别进行编码,其中 (e_c) 除了维度 c 外都是 0。(这也称为虚拟编码。)使用 one-hot 编码,我们可以将分类分布写为:
[ \text{Cat}(y|\theta) = \prod_{c=1}^{C} \theta_c^{y_c} ]
分类分布是多项式分布的特例。为了解释这一点,假设我们观察到 N 次分类试验,(y_n \sim \text{Cat}(\cdot|\theta)),对于 (n = 1 : N)。具体来说,可以将其看作 N 次掷一个 C 面的骰子。我们定义 y 为一个向量,它计算每个面出现的次数,即 (y_c = N_c = \sum_{n=1}^{N} I(y_n = c))。现在 y 不再是 one-hot,而是“multi-hot”,因为它对于在所有 N 次试验中观察到的每个 c 的值都有一个非零的条目。y 的分布由多项式分布给出:
[ M(y|N, \theta) = \frac{N!}{N_1!N_2! \cdots N_C!} \prod_{c=1}^{C} \theta_c^{N_c} ]
其中 (\theta_c) 是面 c 出现的概率,而
[ \frac{N!}{N_1!N_2! \cdots N_C!} ]
是多项式系数,它是将大小为 N = \sum_{c=1}^{C} N_c 的集合分割成大小为 (N_1) 到 (N_C) 的子集的方法的数量。如果 (N = 1),多项式分布就变成了分类分布。

2.5.2 Softmax 函数
在条件情况下,我们可以定义
[ p(y|x, \theta) = \text{Cat}(y|f(x; \theta)) ]
我们还可以写成
[ p(y|x, \theta) = \text{M}(y|1, f(x; \theta)) ]
我们要求 (0 \leq f_c(x; \theta) \leq 1) 且 (\sum_{c=1}^{C} f_c(x; \theta) = 1)。
为了避免 f 直接预测概率向量的要求,通常会将 f 的输出传递到 softmax 函数 [Bri90],也称为多项式 logit。其定义如下:
[ \text{softmax}(a) = \left( \frac{e{a_1}}{\sum_{c=1}{C} e^{a_c}}, \ldots, \frac{e{a_C}}{\sum_{c=1}{C} e^{a_c}} \right) ]

在这里插入图片描述
图 2.13: 鸢尾花数据集的三类别、两特征版本上的逻辑回归。改编自 [Gér19] 图 4.25。由 iris_logreg.ipynb 生成。

这将 R^C 映射到 [0, 1]^C,满足 0 ≤ softmax(a)c ≤ 1 和 P{c=1}^{C} softmax(a)_c = 1 的约束。Softmax 函数的输入 a = f(x; θ) 被称为 logits,是 log odds 的一般化。Softmax 函数之所以被这样命名,是因为它有点像 argmax 函数。为了理解这一点,让我们将每个 a_c 除以称为温度的常数 T。然后当 T → 0 时,我们有 softmax(a/T)_c =

{
1.0 if c = argmax_c
0 a_c
0.0 otherwise

也就是说,在低温下,该分布将其大部分概率集中在最有可能的状态(这称为赢者通吃),而在高温下,它将概率均匀地分散。请参见图 2.12 进行说明。

2.5.3 多类别 logistic 回归
如果我们使用形式为 f(x; θ) = Wx + b 的线性预测器,其中 W 是一个 C×D 矩阵,b 是一个 C 维偏置向量,最终模型变为

[ p(y|x; θ) = Cat(y|softmax(Wx + b)) ]

令 a = Wx + b 为 C 维 logits 向量。然后我们可以将上述重写为:

[ p(y = c|x; θ) = \frac{e{a_c}}{\sum_{c’=1}{C} e^{a_{c’}}} ]

这被称为多项 logistic 回归。如果只有两个类别,这将归结为二元 logistic 回归。要理解这一点,注意 softmax(a)_0 =
(\frac{e{a_0}}{e{a_0} + e^{a_1}} = \frac{1}{1 + e^{a_1 - a_0}} = \sigma(a_0 - a_1)),因此我们只需训练模型来预测 a = a_1 - a_0。这可以通过一个单一的权重向量 w 完成;如果使用多类别的形式,我们将有两个权重向量 w_0 和 w_1。这样的模型过于参数化,可能会影响可解释性,但预测将是相同的。

我们将在第10.3节中更详细地讨论这一点。现在,我们只给出一个例子。图2.13显示了当我们将该模型拟合到3类鸢尾花数据集时发生的情况,仅使用了2个特征。我们看到每个类别之间的决策边界是线性的。我们可以通过转换特征(例如,使用多项式)来创建非线性边界,这一点将在第10.3.1节中讨论。

2.5.4 对数求和指数技巧
在本节中,我们讨论在使用 softmax 分布时需要注意的一个重要实际细节。假设我们想计算归一化概率 (p_c = p(y = c|x)),其表示为

[ p_c = \frac{e^{a_c}}{Z(a)} = \frac{e{a_c}}{\sum_{c’=1}{C} e^{a_{c’}}} ]

其中 (a = f(x; θ)) 为 logits。在计算分区函数 Z 时,我们可能会遇到数值问题。例如,假设我们有3个类别,logits 为 (a = (0, 1, 0))。那么我们有 (Z = e^0 + e^1 + e^0 = 4.71)。但是现在假设 (a = (1000, 1001, 1000));我们发现 (Z = ∞),因为在计算机上,即使使用64位精度,np.exp(1000) 也等于 inf。类似地,假设 (a = (-1000, -999, -1000));现在我们发现 (Z = 0),因为 np.exp(-1000) 等于 0。为避免数值问题,我们可以使用以下恒等式:

[ \log \left( \sum_{c=1}^{C} \exp(a_c) \right) = m + \log \left( \sum_{c=1}^{C} \exp(a_c - m) \right) ]

其中 m 可以是任何值。通常使用 (m = \max_c a_c),这确保指数化的最大值将为零,因此绝对不会溢出;即使在下溢时,答案也是合理的。这被称为对数求和指数技巧。我们在实现 lse 函数时使用此技巧:

[ \text{lse}(a) = \log \left( \sum_{c=1}^{C} \exp(a_c) \right) ]

我们可以使用这个技巧从 logits 计算概率:

[ p(y = c|x) = \frac{\exp(a_c - \text{lse}(a))}{\sum_{c’=1}^{C} \exp(a_{c’})} ]

然后,我们可以将其传递给交叉熵损失,该损失在方程(5.41)中定义。

然而,为了节省计算量,并提高数值稳定性,通常修改交叉熵损失,以便将 logits a 作为输入,而不是概率向量 p。例如,考虑二元情况。一个例子的 CE 损失为

[ L = -[I(y = 0) \log p_0 + I(y = 1) \log p_1] ]

其中

[ \log p_1 = \log \left( \frac{1}{1 + \exp(-a)} \right) = \log(1) - \log(1 + \exp(-a)) = 0 - \text{lse}([0, -a]) ]

[ \log p_0 = 0 - \text{lse}([0, a]) ]

2.6 单变量高斯(正态)分布
实数随机变量 (y \in \mathbb{R}) 的最广泛使用的分布是高斯分布,也称为正态分布(关于这些名称的讨论,请参见第2.6.4节)。

2.6.1 累积分布函数
我们定义连续随机变量 Y 的累积分布函数(CDF)如下:
[ P(y) \quad \text{or} \quad Pr(Y \leq y) \quad (2.106) ]
(请注意我们使用大写 P 表示 CDF。)使用这个定义,我们可以计算处于任何区间的概率如下:
[ Pr(a < Y \leq b) = P(b) - P(a) \quad (2.107) ]
CDF 是单调不减函数。

高斯的 CDF 由下式定义:
[ \Phi(y; \mu, \sigma^2) = \int_{-\infty}^{y} \mathcal{N}(z | \mu, \sigma^2) , dz \quad (2.108) ]
参见图2.2a以获取绘图。请注意,高斯的 CDF 通常使用 (\Phi(y; \mu, \sigma^2) = \frac{1}{2} [1 + \text{erf}(z/\sqrt{2})]) 实现,其中 (z = (y - \mu)/\sigma),erf(u) 是误差函数,定义为
[ \text{erf}(u) = \frac{1}{\sqrt{2\pi}} \int_{0}^{u} e{-t2} , dt \quad (2.109) ]
参数 (\mu) 编码分布的均值;在高斯的情况下,这也是众数。参数 (\sigma^2) 编码方差。(有时我们谈论高斯的精度,即逆方差,用 (\lambda = 1/\sigma^2) 表示。)当 (\mu = 0) 且 (\sigma = 1) 时,高斯称为标准正态分布。

如果 P 是 Y 的 CDF,那么 (P^{-1}(q)) 是值 (y_q),使得 (p(Y \leq y_q) = q);这被称为 P 的第 q 个分位数。值 (P^{-1}(0.5)) 是分布的中位数,左侧有一半的概率质量,右侧有一半。值 (P^{-1}(0.25)) 和 (P^{-1}(0.75)) 是下四分位数和上四分位数。

例如,设 Φ 是高斯分布 N(0, 1) 的 CDF,Φ^{-1} 是反函数(也称为 probit 函数)。然后,在 Φ^{-1}(α/2) 左侧的点包含 α/2 的概率质量,如图2.2b所示。由对称性,Φ^{-1}(1 - α/2) 右侧的点也包含 α/2 的质量。因此,中心区间 ((\Phi^{-1}(α/2), \Phi^{-1}(1 - α/2))) 包含 1 - α 的质量。如果我们设置 α = 0.05,则中心 95% 区间由范围 ((\Phi^{-1}(0.025), \Phi^{-1}(0.975)) = (-1.96, 1.96)) 覆盖。

如果分布是 N(µ, σ^2),则95%区间变为 ((\mu - 1.96\sigma, \mu + 1.96\sigma))。这通常近似为写作 (\mu \pm 2\sigma)。

2.6.2 概率密度函数
我们将概率密度函数(PDF)定义为累积分布函数的导数:
[ p(y) \quad \text{or} \quad \frac{d}{dy}P(y) \quad (2.111) ]
高斯的 PDF 给出为
[ \mathcal{N}(y | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e{-\frac{1}{2\sigma2}(y-\mu)^2} \quad (2.112) ]
其中 (\sqrt{2\pi\sigma^2}) 是确保密度积分为1所需的规范化常数(参见练习2.12)。请参见图2.2b以获取绘图。
给定 PDF,我们可以计算连续变量处于有限区间的概率如下:
[ Pr(a < Y \leq b) = \int_{a}^{b} p(y) , dy = P(b) - P(a) \quad (2.113) ]
随着区间大小变得更小,我们可以写成
[ Pr(y \leq Y \leq y + dy) \approx p(y) , dy \quad (2.114) ]
直观地说,这表示 Y 处于 y 周围的小区间的概率是 y 处的密度乘以区间的宽度。以上结果的一个重要结论是,点上的 PDF 可能大于1。例如,(\mathcal{N}(0|0, 0.1) = 3.99)。
我们可以使用 PDF 计算分布的均值或期望值:
[ E[Y] = \int_{-\infty}^{\infty} y , p(y) , dy \quad (2.115) ]
对于高斯分布,我们有熟悉的结果,即 (E[\mathcal{N}(·|\mu, \sigma^2)] = \mu)。(然而,请注意,对于某些分布,这个积分是无限的,因此均值未定义。)
我们还可以使用 PDF 计算分布的方差。这是“扩展”的度量,通常用 (\sigma^2) 表示。方差定义如下:
[ V[Y] = E[(Y - \mu)^2] = \int_{-\infty}^{\infty} (y - \mu)^2 , p(y) , dy \quad (2.116) ]
[ = \int_{-\infty}^{\infty} y^2 , p(y) , dy + \mu^2 \int_{-\infty}^{\infty} p(y) , dy - 2\mu \int_{-\infty}^{\infty} y , p(y) , dy ]
[ = E[Y^2] - \mu^2 \quad (2.117) ]
从中我们得到了一个有用的结果
[ E[Y^2] = \sigma^2 + \mu^2 \quad (2.118) ]
标准差定义为
[ \text{std}[Y] = \sqrt{V[Y]} = \sigma \quad (2.119) ]
(标准差可能比方差更易解释,因为它具有与 Y 本身相同的单位。)对于高斯分布,我们有熟悉的结果,即 (\text{std}[\mathcal{N}(·|\mu, \sigma^2)] = \sigma)。

在这里插入图片描述
Figure 2.14: 使用高斯输出的线性回归,其中均值 (\mu(x) = b + wx),(a) 固定方差 (\sigma^2)(同方差)或 (b) 输入相关方差 (\sigma(x)^2)(异方差)。由 linreg_1d_hetero_tfp.ipynb 生成。
2.6.3 回归

到目前为止,我们一直考虑无条件的高斯分布。在某些情况下,将高斯的参数作为某些输入变量的函数是有帮助的,即,我们想要创建形式为

[ p(y|x; \theta) = \mathcal{N}(y|f_{\mu}(x; \theta), f_{\sigma}(x; \theta)^2) ]

其中 (f_{\mu}(x; \theta) \in \mathbb{R}) 预测均值,而 (f_{\sigma}(x; \theta)^2 \in \mathbb{R}^+) 预测方差。

通常,我们假设方差是固定的,并且与输入无关。这称为同方差回归。此外,通常假设均值是输入的线性函数。得到的模型称为线性回归:

[ p(y|x; \theta) = \mathcal{N}(y|w^Tx + b, \sigma^2) ]

其中 (\theta = (w, b, \sigma^2))。见图 2.14(a) 以了解此模型在 1d 中的示意图,并参阅第 11.2 节以了解此模型的更多详细信息。

然而,我们还可以使方差取决于输入;这被称为异方差回归。在线性回归设置中,我们有

[ p(y|x; \theta) = \mathcal{N}(y|w_{\mu}^Tx + b, \sigma_+(w_{\sigma}^Tx)) ]

其中 (\theta = (w_{\mu}, w_{\sigma})) 是两种形式的回归权重,而

[ \sigma_+(a) = \log(1 + e^a) ]

是 softplus 函数,将从 \mathbb{R} 到 \mathbb{R}^+ 映射,以确保预测的标准差为非负数。见图 2.14(b) 以了解此模型在 1d 中的示意图。

请注意,图 2.14 绘制了 95% 的预测区间,([\mu(x) - 2\sigma(x), \mu(x) + 2\sigma(x)])。这是给定 x 的预测观测 y 的不确定性,捕获了蓝色点的变异性。相比之下,底层(无噪声)函数的不确定性由 (p V[f_{\mu}(x; \theta)]) 表示,它不涉及 (\sigma) 项;现在的不确定性是关于参数 (\theta),而不是输出 y。有关如何建模参数不确定性的详细信息,请参见第 11.7 节。

2.6.4 为什么高斯分布被如此广泛使用?

高斯分布是统计学和机器学习中最广泛使用的分布。这有几个原因。首先,它有两个易于解释的参数,捕捉了分布的一些最基本的特性,即其均值和方差。其次,中心极限定理(第 2.8.6 节)告诉我们,独立随机变量的和具有近似的高斯分布,使其成为对残差错误或“噪声”建模的良好选择。第三,高斯分布在满足具有指定均值和方差的约束的同时,做出了最少数量的假设(具有最大熵),如我们在第 3.4.4 节中所示;这使其成为许多情况下的良好默认选择。最后,它具有简单的数学形式,导致易于实施但通常非常有效的方法,正如我们将在第 3.2 节中看到的。

从历史的角度来看,值得注意的是,“高斯分布”这个术语有点误导,因为正如 Jaynes [Jay03, p241] 所指出的:“当高斯六岁时,拉普拉斯注意到了这个分布的基本特性和主要性质;而在拉普拉斯出生之前,de Moivre 就已经发现了这个分布本身。”然而,高斯在 19 世纪推广了该分布的使用,并且“高斯”这个术语现在在科学和工程中被广泛使用。术语“正态分布”似乎是与线性回归中的正态方程有关的(参见第 11.2.2.2 节)。然而,我们更倾向于避免使用术语“正态”,因为它暗示其他分布是“非正常的”,而正如 Jaynes [Jay03] 指出的,实际上是高斯在某种意义上是非正常的,因为它具有许多一般分布不具有的特殊性质。

2.6.5 作为极限情况的狄拉克δ函数

当高斯的方差趋近于 0 时,分布趋近于均值处的一个无限窄但无限高的“尖峰”。我们可以写成:

[ \lim_{\sigma \to 0} \mathcal{N}(y|\mu, \sigma^2) \to \delta(y - \mu) ]

其中 (\delta) 是狄拉克δ函数,定义为:

[ \delta(x) = \begin{cases} +\infty & \text{if } x = 0 \ 0 & \text{if } x \neq 0 \end{cases} ]

其中

[ \int_{-\infty}^{\infty} \delta(x) ,dx = 1 ]

这的一个变体是定义

[ \delta_y(x) = \begin{cases} +\infty & \text{if } x = y \ 0 & \text{if } x \neq y \end{cases} ]

请注意我们有

[ \delta_y(x) = \delta(x - y) ]

Delta函数分布满足以下的筛选性质,我们将在后面用到:
[ \int_{-\infty}^{\infty} f(y) \delta(x - y) , dy = f(x) ] (方程 2.129)

在这里插入图片描述
Figure 2.15: (a) 对于 (N(0, 1))、(T(\mu = 0, \sigma = 1, \nu = 1))、(T(\mu = 0, \sigma = 1, \nu = 2)) 和 Laplace(0, (1/\sqrt{2})),显示了它们的概率密度函数(pdf)。高斯和拉普拉斯都具有均值 0 和方差 1。当 (\nu = 1) 时,学生 t 分布与柯西分布相同,它没有明确定义的均值和方差。(b) 这些概率密度函数的对数。请注意,学生 t 分布对于任何参数值都不是对数凹函数,与拉普拉斯分布不同。尽管如此,两者都是单峰的。由 student_laplace_pdf_plot.ipynb 生成。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值