机器学习: 最小二乘与贝叶斯估计

最新推荐文章于 2025-09-26 20:48:54 发布

翻译最新推荐文章于 2025-09-26 20:48:54 发布 · 1.1w 阅读

文章标签：

#机器学习

机器学习专栏收录该内容

114 篇文章

订阅专栏

本文探讨了在线性回归中最小二乘法与贝叶斯估计的关系，包括最大似然估计和最大后验概率估计，并展示了如何通过高斯分布建立两者之间的联系。

在线性回归中，我们最常用到的是最小二乘法，给定一组样本 $S=\{ \mathbf{x}_{i} \}, i=1,2,...N$ 和目标值 $\mathbf{t}=\{ t_{1}, t_{2},...t_{N}\}$ ,
我们希望找到一种映射关系 $y(\mathbf{x}, \mathbf{w})=\mathbf{w}^{T}\mathbf{x}$ , 最小二乘法就是通过求解如下的目标函数来求 $\mathbf{w}$ :

E = 1 2 \sum i = 1 N (t i - y (x i, w)) 2

$E=\frac{1}{2}\sum_{i=1}^{N} \left( t_{i}-y(\mathbf{x}_{i}, \mathbf{w}) \right)^{2}$

接下来我们从贝叶斯估计出发，探讨最小二乘与贝叶斯估计中最大似然估计和最大后验概率估计的关系。因为 $y(\mathbf{x}, \mathbf{w})$ 只是目标值 $t$ 的近似估计，所以两者满足如下的关系:

t = y (x, w) + ϵ

$t=y(\mathbf{x}, \mathbf{w}) + \epsilon$

如果我们假设 $\epsilon$ 是满足均值为 $0$ , precision (精确度)为 $\beta$ 的高斯分布，这里 $\beta$ 即为方差的倒数。那么我们有:

p (t | x, w, β) = N (t | y (x, w), β - 1)

$p(t| \mathbf{x}, \mathbf{w}, \beta)=\mathcal{N}(t| y(\mathbf{x}, \mathbf{w}), \beta^{-1} )$

进一步假设样本分布满足 i.i.d 即独立同分布，那么这组样本的联合概率满足:

p (t | S, w, β) = \prod i = 1 N N (t i | w T x i, β - 1)

$p(\mathbf{t}| S, \mathbf{w}, \beta)=\prod_{i=1}^{N} \mathcal{N}(t_{i}| \mathbf{w}^{T}\mathbf{x}_{i}, \beta^{-1} )$

利用最大似然估计，可以得到:

ln p (t | S, w, β) = \sum i = 1 N ln (N (t i | w T x i, β - 1))

$\text{ln} p(\mathbf{t}| S, \mathbf{w}, \beta)=\sum_{i=1}^{N} \text{ln} (\mathcal{N}(t_{i}| \mathbf{w}^{T}\mathbf{x}_{i}, \beta^{-1}) )$

= N 2 ln β - N 2 ln (2 π) - β E D (w)

$= \frac{N}{2}\text{ln}\beta- \frac{N}{2}\text{ln}(2\pi)-\beta E_{D}(\mathbf{w})$

而 $E_{D}(\mathbf{w})$ 就是:

E D (w) = 1 2 \sum i = 1 N (t i - w T x i) 2

$E_{D}(\mathbf{w})=\frac{1}{2} \sum_{i=1}^{N} \left( t_{i} - \mathbf{w}^{T}\mathbf{x}_{i} \right)^{2}$

可以看到，高斯分布下的最大似然估计就是最小二乘。我们可以求出最优的 $\mathbf{w}$ , 假设对应最大似然估计下的最优解为 $\mathbf{w}_{ML}$ , 可以进一步求出最大似然估计下的精确度 $\beta$ 为:

1 β M L = 1 N \sum i = 1 N (t i - w T M L x i) 2

$\frac{1}{\beta_{ML}}=\frac{1}{N} \sum_{i=1}^{N} \left( t_{i} - \mathbf{w}_{ML}^{T}\mathbf{x}_{i} \right)^{2}$

那么给定一个新的 $\mathbf{x}$ , 其对应的预测值 $t$ 满足如下的高斯分布，

p (t | x, w M L, β M L) = N (t | y (x, w M L), β - 1 M L)

$p(t| \mathbf{x}, \mathbf{w}_{ML}, \beta_{ML})=\mathcal{N}(t| y(\mathbf{x}, \mathbf{w}_{ML}), \beta_{ML}^{-1} )$

显然，当 $t=y(\mathbf{x}, \mathbf{w}_{ML})$ 的时候，所对应的概率是最大的。从最大似然估计出发，我们可以得到最小二乘。

接下来，考虑最大后验概率估计，给 $\mathbf{w}$ 一个先验分布，假设 $\mathbf{w}$ 的分布也是满足高斯形式:

p (w | α) = N (w | 0, α - 1 I) = (α 2 π) (M + 1) / 2 e x p (- α 2 w T w)

$p(\mathbf{w} | \alpha)= \mathcal{N} (\mathbf{w} | \mathbf{0}, \alpha^{-1}\mathbf{I})=\left( \frac{\alpha}{2 \pi} \right)^{(M+1)/2} exp(-\frac{\alpha}{2}\mathbf{w}^{T}\mathbf{w})$

根据贝叶斯定理，我们知道后验概率与先验概率和似然函数之积是成一定比例的: