序言
贝叶斯统计起源于18世纪的英国数学家托马斯·贝叶斯,其核心在于利用已有的信息(先验信息)和新的观测数据(后验信息)来更新对某个事件或参数的信念。贝叶斯统计与传统的频率统计有着显著的不同,它强调对未知参数的随机性假设,并将未知参数视为随机变量。这一思想在现代数据分析、机器学习和人工智能等领域有着广泛的应用。
贝叶斯统计(Bayesian Statistics)
-
频率统计(Frequentist Statistics)方法和基于估计单一值 θ \theta θ的方法(MLE),然后基于该估计作所有的预测。另一种方法是做预测时会考虑所有可能 θ \theta θ。后者属于贝叶斯统计(Bayesian Statistics)的范畴。
-
频率派与贝叶斯派(frequentist vs. Bayesians)
- 统计范畴:
- 频率派视角是真实参数 θ \theta θ是未知的定值,而点估计 θ ^ \hat{\theta} θ^是考虑数据集上函数(可以看作是随机的)的随机变量。
- 贝叶斯视角是用贝叶斯概率反映知识状态的确定性程度。数据集能够直接观测到,因此不是随机的。另一方面,真实参数 θ \theta θ是未知或不确定的,因此可以表示成随机变量。
- 处理估计
θ
\theta
θ不确定性的方法:
- 频率派采用的方法是:评估方差。估计的方差评估了 观测数据重新从观测数据中采样后,估计可能如何变化。
- 贝叶斯派采用的方法是:积分。这往往会防止过拟合。积分当然是概率法则的应用,使用贝叶斯方法容易验证。
- 频率派机器学习基于相当特别的决定构建了一个估计,将数据集里的所有信息归纳到一个单独的点估计。
- 统计范畴:
-
- 在观察到数据前,我们将 θ \theta θ的已知知识表示成先验概率分布(prior probability distribution),记作 p ( θ ) p(\theta) p(θ)(有时简单地称为”先验“)。
- 一般而言,我们会选择一个相当宽泛的先验分布(即高熵的),反映在观测到任何数据前参数
θ
\theta
θ的高度不确定性。
- 例如:我们可能假设先验 θ \theta θ在有限区间中均匀分布。许多先验偏好于”更简单“的解决方法(如小幅度的系数,或者是接近常数的函数)。
- 现在假设有一组数据样本
{
x
(
1
)
,
…
,
x
(
m
)
}
\{ x^{(1)},\dots,x^{(m)} \}
{x(1),…,x(m)},然后通过贝叶斯法则结合数据似然
p
(
x
(
i
)
,
…
,
x
(
m
)
∣
θ
)
p(x^{(i)},\dots,x^{(m)}\mid \theta)
p(x(i),…,x(m)∣θ)和先验,我们可以恢复数据对真实参数
θ
\theta
θ的影响:
p ( θ ∣ x ( 1 ) , … , x ( m ) ) = p ( x ( i ) , … , x ( m ) ∣ θ ) p ( θ ) p ( x ( i ) , … , x ( m ) ) p(\theta \mid x^{(1)},\dots,x^{(m)}) = \displaystyle\frac{p(x^{(i)},\dots,x^{(m)}\mid \theta) p(\theta)}{p(x^{(i)},\dots,x^{(m)})} p(θ∣x(1),…,x(m))=p(x(i),…,x(m))p(x(i),…,x(m)∣θ)p(θ) - 在贝叶斯估计通常使用的情况下,先验开始是相对均匀的分布或高熵的高斯分布,观测数据通常会使后验的熵下降,并集中在参数的几个可能性很高的值。
- 相对于最大似然估计,贝叶斯估计有两个重要区别:
- 第一,不像最大似然方法预测时使用
θ
\theta
θ的点估计,贝叶斯方法预测
θ
\theta
θ的全分布。
- 例如:在观测到
m
m
m个样本后,下一个数据样本,
x
(
m
+
1
)
x^{(m+1)}
x(m+1)的预测分布如下:
p ( x ( m + 1 ) ∣ x ( 1 ) , … , x ( m ) ) = ∫ p ( x ( m + 1 ) ∣ θ ) p ( θ ∣ x ( 1 ) , … , x ( m ) ) d θ p(x^{(m+1)} \mid x^{(1)},\dots,x^{(m)}) = \displaystyle\int p(x^{(m+1)} \mid \theta) p(\theta \mid x^{(1)},\dots,x^{(m)}) d\theta p(x(m+1)∣x(1),…,x(m))=∫p(x(m+1)∣θ)p(θ∣x(1),…,x(m))dθ - 这里,具有正概率密度的 θ \theta θ的每个值有助于下一个样本的预测,其中贡献由后验密度本身加权。在观测到数据集 { x ( 1 ) , … , x ( m ) } \{ x^{(1)},\dots,x^{(m)} \} {x(1),…,x(m)}之后,如果我们仍然非常不确定 θ \theta θ的值,那么这个确定性会直接包含在我们所做的任何预测中。
- 例如:在观测到
m
m
m个样本后,下一个数据样本,
x
(
m
+
1
)
x^{(m+1)}
x(m+1)的预测分布如下:
- 第二,贝叶斯方法和最大似然方法的第二个最大区别是:贝叶斯先验分布造成的。先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。实践中,先验通常表现为偏好更简单或更光滑的模型。对贝叶斯方法的批判认为先验是人为主观判断影响预测的来源。
- 当训练数据很有限时,贝叶斯方法通常泛化得更好,但是当训练样本数目很大时,通常会有很高的计算代价。
- 第一,不像最大似然方法预测时使用
θ
\theta
θ的点估计,贝叶斯方法预测
θ
\theta
θ的全分布。
- 实例:贝叶斯线性回归:
- 我们使用贝叶斯估计方法学习线性回归参数。
- 在线性回归中,我们学习从输入向量
x
∈
R
n
\boldsymbol{x} \in \mathbb{R}^n
x∈Rn预测变量
y
∈
R
y \in \mathbb{R}
y∈R的映射。该预测参数化为向量
w
∈
R
n
\boldsymbol{w} \in \mathbb{R}^n
w∈Rn:
y
^
=
w
⊤
x
\hat{y} = \boldsymbol{w}^\top \boldsymbol{x}
y^=w⊤x
- 假设给定一组 m m m个训练样本( X ( train ) , y ( train ) \boldsymbol{X}^{(\text{train})},\boldsymbol{y}^{(\text{train})} X(train),y(train))
- 我们可以表示整个训练集对 y y y的预测为: y ^ ( train ) = X ( train ) w \hat{y}^{(\text{train})} = \boldsymbol{X}^{(\text{train})} \boldsymbol{w} y^(train)=X(train)w
- 表示为
y
(
train
)
\boldsymbol{y}^{(\text{train})}
y(train)上的高斯条件分布,我们得到:
{ p ( y ( train ) ∣ X ( train ) , w ) = N ( y ( train ) ; X ( train ) w , I ) ∝ e − 1 2 ( y ( train ) − X ( train ) w ) ⊤ ( y ( train ) − X ( train ) w ) \begin{cases}\begin{array}{l}p(\boldsymbol{y}^{(\text{train})} \mid \boldsymbol{X}^{(\text{train})},\boldsymbol{w}) = \mathcal{N}(\boldsymbol{y}^{(\text{train})};\boldsymbol{X}^{(\text{train})}\boldsymbol{w},\boldsymbol{I}) \\\\ \qquad\qquad\qquad\qquad\quad\quad\propto e^{\displaystyle-\frac{1}{2}(\boldsymbol{y}^{(\text{train})} - \boldsymbol{X}^{(\text{train})} \boldsymbol{w})^\top (\boldsymbol{y}^{(\text{train})} - \boldsymbol{X}^{(\text{train})} \boldsymbol{w})}\end{array}\end{cases} ⎩ ⎨ ⎧p(y(train)∣X(train),w)=N(y(train);X(train)w,I)∝e−21(y(train)−X(train)w)⊤(y(train)−X(train)w)-
其中,根据标准的 MSE \text{MSE} MSE公式假设 y y y上的高斯方差为1。
-
在下文中,为减少符号负担,我们将( X ( train ) , y ( train ) \boldsymbol{X}^{(\text{train})},\boldsymbol{y}^{(\text{train})} X(train),y(train))简单表示为( X , y \boldsymbol{X},\boldsymbol{y} X,y)。
-
确定模型参数向量 w \boldsymbol{w} w的后验分布,我们首先需要指定一个先验分布。
-
先验应该反映我们对这些参数取值的信念。虽然有时很难或很不自然将我们的先验信念表示为模型的参数,在实践中我们通常假设一个相当广泛的分布来表示 θ \theta θ的高度不确定性。
-
实数值参数通常使用高斯作为先验分布: { p ( w ) = N ( w ; μ 0 , Λ 0 ) ∝ e ( − 1 2 ( w − μ 0 ) ⊤ Λ 0 − 1 ( w − μ 0 ) ) \begin{cases}\begin{array}{l}p(\boldsymbol{w}) = \mathcal{N}(\boldsymbol{w};\boldsymbol{\mu}_0,\boldsymbol{\Lambda}_0) \\\\ \qquad\quad\propto e^{\left(\displaystyle-\frac{1}{2}(\boldsymbol{w}-\boldsymbol{\mu}_0)^\top \boldsymbol{\Lambda}_0^{-1}(\boldsymbol{w}-\boldsymbol{\mu}_0)\right)}\end{array}\end{cases} ⎩ ⎨ ⎧p(w)=N(w;μ0,Λ0)∝e(−21(w−μ0)⊤Λ0−1(w−μ0))
- 说明:其中 μ 0 \boldsymbol{\mu}_0 μ0和 Λ 0 \boldsymbol{\Lambda}_0 Λ0是先验分布的均值和协方差矩阵。
-
确定好先验后,我们现在可以继续确定模型参数的后验分布。
{ p ( w ∣ X , y ) ∝ p ( y ∣ X , w ) p ( w ) ∝ e ( − 1 2 ( y − X w ) ⊤ ( y − X w ) ) e ( − 1 2 ( w − μ 0 ) ⊤ Λ 0 − 1 ( w − μ 0 ) ) ∝ e ( 1 2 ( − 2 y ⊤ X w + w ⊤ X ⊤ X w + w ⊤ Λ 0 − 1 w − 2 μ 0 ⊤ Λ 0 − 1 w ) ) \begin{cases}\begin{array}{l} p(\boldsymbol{w} \mid \boldsymbol{X}, \boldsymbol{y}) \propto p(\boldsymbol{y} \mid \boldsymbol{X}, \boldsymbol{w})p(\boldsymbol{w}) \\\\ \quad\quad\quad\quad\quad\quad \propto e^{\left(\displaystyle-\frac{1}{2}(\boldsymbol{y}-\boldsymbol{Xw})^\top(\boldsymbol{y}-\boldsymbol{Xw})\right)} e^{\left(\displaystyle-\frac{1}{2}(\boldsymbol{w}-\boldsymbol{\mu}_0)^\top \boldsymbol{\Lambda}_0^{-1} (\boldsymbol{w}-\boldsymbol{\mu}_0)\right)} \\\\ \quad\quad\quad\quad\quad\quad \propto e^{\left(\displaystyle\frac{1}{2}(-2\boldsymbol{y}^\top \boldsymbol{Xw} + \boldsymbol{w}^\top \boldsymbol{X}^\top \boldsymbol{Xw} + \boldsymbol{w}^\top \boldsymbol{\Lambda}_0^{-1} \boldsymbol{w} - 2\boldsymbol{\mu}_0^\top \boldsymbol{\Lambda}_0^{-1} \boldsymbol{w} )\right)} \end{array}\end{cases} ⎩ ⎨ ⎧p(w∣X,y)∝p(y∣X,w)p(w)∝e(−21(y−Xw)⊤(y−Xw))e(−21(w−μ0)⊤Λ0−1(w−μ0))∝e(21(−2y⊤Xw+w⊤X⊤Xw+w⊤Λ0−1w−2μ0⊤Λ0−1w)) -
现在我们定义 Λ m = ( X ⊤ X + Λ 0 − 1 ) \boldsymbol{\Lambda}_m = (\boldsymbol{X}^\top \boldsymbol{X} + \boldsymbol{\Lambda}_0^{-1}) Λm=(X⊤X+Λ0−1)和 μ m = Λ m ( X ⊤ y + Λ 0 − 1 μ 0 ) \boldsymbol{\mu}_m = \boldsymbol{\Lambda}_m (\boldsymbol{X}^\top \boldsymbol{y} + \boldsymbol{\Lambda}_0^{-1} \boldsymbol{\mu}_0) μm=Λm(X⊤y+Λ0−1μ0)。使用这些新的变量,我们发现后验可改写为高斯分布:
{ p ( w ∣ X , y ) ∝ e ( − 1 2 ( w − μ m ) ⊤ Λ m − 1 ( w − μ m ) + 1 2 μ m ⊤ Λ m − 1 μ m ) ∝ e ( − 1 2 ( w − μ m ) ⊤ Λ m − 1 ( w − μ m ) ) \begin{cases}\begin{array}{l} p(\boldsymbol{w} \mid \boldsymbol{X},\boldsymbol{y}) \propto e^{\left(\displaystyle-\frac{1}{2}(\boldsymbol{w}-\boldsymbol{\mu}_m)^\top \boldsymbol{\Lambda}_m^{-1}(\boldsymbol{w}-\boldsymbol{\mu}_m)+\frac{1}{2} \boldsymbol{\mu}_m^\top \boldsymbol{\Lambda}_m^{-1} \boldsymbol{\mu}_m \right)} \\\\ \quad\quad\quad\quad\quad\quad \propto e^{\left(\displaystyle-\frac{1}{2}(\boldsymbol{w}-\boldsymbol{\mu}_m)^\top \boldsymbol{\Lambda}_m^{-1}(\boldsymbol{w}-\boldsymbol{\mu}_m) \right)} \end{array}\end{cases} ⎩ ⎨ ⎧p(w∣X,y)∝e(−21(w−μm)⊤Λm−1(w−μm)+21μm⊤Λm−1μm)∝e(−21(w−μm)⊤Λm−1(w−μm)) -
所有不包括的参数向量 w \boldsymbol{w} w的项都已经被删去了;它们意味着分布的积分必须归一这一个事实。
-
检查此后验分布可以让我们获得贝叶斯推断效果的一些直觉。大多数情况下,我们设置 μ 0 = 0 \boldsymbol{\mu}_0=0 μ0=0。如果我们设置 Λ 0 = 1 α I \boldsymbol{\Lambda}_0=\frac{1}{\alpha}\boldsymbol{I} Λ0=α1I,那么 μ m \mu_m μm对 w \boldsymbol{w} w的估计就和频率派带权重衰减惩罚 α w ⊤ w \alpha\boldsymbol{w}^\top\boldsymbol{w} αw⊤w的线性回归的估计一样。一个区别是若 α \alpha α设为0,则贝叶斯估计是未定义的,即不能初始化贝叶斯学习过程为一个无限宽的 w \boldsymbol{w} w先验。更重要的区别是贝叶斯估计会给出一个协方差矩阵,表示 w \boldsymbol{w} w所有不同值的可能范围,而不仅是估计 μ m \mu_m μm。
-
-
最大后验(MAP)估计(Maximum A Posteriori (MAP) Estimation)
- 虽然使用完整的贝叶斯后验分布进行参数 θ \theta θ预测时非常合理的,但仍常常希望能够进行单点估计。
- 希望点估计的一个常见原因是,对于非常有趣的模型而言,大部分涉及到贝叶斯后验的操作是非常棘手的,点估计提供了一个可解的近似。并非简单地回归到最大似然学习,我们仍然可以通过先验影响点估计的选择而获取贝叶斯方法的优点。
- 一种能够做到这一点的合理方式是选择最大后验(Maximum A Posteriori, MAP)点估计。MAP估计选择后验概率最大的点(或在
θ
\theta
θ是连续值的更常见情况下,概率密度最大的点):
θ MAP = arg max θ p ( θ ∣ x ) = arg max θ log p ( x ∣ θ ) + log p ( θ ) \theta_{\text{MAP}}=\argmax\limits_{\theta} p(\theta \mid \boldsymbol{x})=\argmax\limits_{\theta} \log p(\boldsymbol{x} \mid \theta)+\log p(\theta) θMAP=θargmaxp(θ∣x)=θargmaxlogp(x∣θ)+logp(θ) - 我们可以认出上面公式右边的 log p ( x ∣ θ ) \log p(\boldsymbol{x} \mid \theta) logp(x∣θ)对应着标准的对数似然项, log p ( θ ) \log p(\theta) logp(θ)对应着先验分布。
- 例如:考虑具有高斯先验权重 w \boldsymbol{w} w的线性回归模型。如果先验是 N ( w ; 0 , 1 λ I 2 ) \mathcal{N}(\boldsymbol{w};\boldsymbol{0},\frac{1}{\lambda}I^2) N(w;0,λ1I2),那么上式的对数先验项正比于熟悉的权重衰减惩罚 λ w ⊤ w \lambda\boldsymbol{w}^\top\boldsymbol{w} λw⊤w,加上一个不依赖 w \boldsymbol{w} w也不会影响学习过程的项。因此,具有高斯先验权重的最大后验贝叶斯推断对应着权重衰减。
- 正如全贝叶斯推断, MAP \text{MAP} MAP贝叶斯推断具有训练数据没有的,先验带来的信息利用优势。该附加信息有助于减少最大后验点估计的方差(相比于 ML \text{ML} ML估计(最大似然估计))。然而,这个优点的代价是增加了偏差。
- 许多正则化估计方法,例如权重衰减正则化的最大似然学习,可以被解释为贝叶斯推断的 MAP \text{MAP} MAP近似。这个解释产生与正则化时加到目标函数的附加项对应着 log p ( θ ) \log p(\theta) logp(θ)。并非所有的正则化惩罚都对应于贝叶斯推断。
- 例如,有些正则化项可能不是一个概率分布的对数。还有一些正则化项依赖于数据,当然也不会是一个先验概率分布。
- MAP \text{MAP} MAP贝叶斯推断提供了一个直观的方法去设计复杂但可解释的正则化项。例如,更复杂的惩罚项可以通过混合高斯作为先验得到,而不是一个单独的高斯分布。
总结
贝叶斯统计是一种基于先验信息和后验数据来更新信念的统计方法。它强调对未知参数的随机性假设,并通过计算后验分布来推断未知参数的不确定性。贝叶斯统计提供了丰富的后验分析工具,如点估计、区间估计和模型比较等,使得在复杂的现实问题中能够进行更为准确的推断。尽管贝叶斯统计在理论上可能不如频率统计“客观”,但在实际应用中,其灵活的建模能力和强大的推断能力使得它成为数据分析领域的重要工具之一。随着计算能力的提升和人工智能的兴起,贝叶斯统计的应用前景将更加广阔。