06-最大后验估计

最新推荐文章于 2023-12-31 01:08:14 发布

小帆-Matter

最新推荐文章于 2023-12-31 01:08:14 发布

阅读量916

点赞数

分类专栏： Prml

本文链接：https://blog.csdn.net/matter605924657/article/details/52437180

版权

Prml 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

误差函数
最大后验

本文次从贝叶斯的角度，观察和认识误差函数和正则化

误差函数

多项式拟合问题可以等价于误差最小化问题

曲线拟合

问题描述：曲线拟合问题的目标是：根据 $N$ 个输入 $X=(x_1,...,x_N)T$ 组成的数据集和对应的目标值 $T=(t_1,...,t_N)T$ ，在给出新的输入变量 $x$ 的新值的情况下，预测目标变量 $t$

贝叶斯的角度：用目标变量值的概率分布来表示不确定性。为此，可以假设，对于给定的 $x$ 的值，对应的目标变量 $t$ 是具有与多项式曲线 $y(x,w)$ 的值相等的均值的高斯分布，用公式表达就是：

p (t | x, w, β) = N (t | y (x, w), β - 1)

$p(t|x, w, \beta) = \mathcal{N}(t|y(x, w), \beta^{-1})$
该分布的方差的逆是精度（precision）参数

β $β$

图示

拟合 $w,β$
使用训练数据 ${X,T}$ ，并通过最大似然来确定未知参数 $w,β$
似然函数：

$p (T | X, w, β) = \prod n = 1 N N (t n | y (x n, w), β - 1)$ $p(T|X, w, \beta) = \prod\limits_{n=1}^{N}\mathcal{N}(t_n|y(x_n, w), \beta^{-1})$

对数似然：

$ln p (T | X, w, β) = - β 2 \sum n = 1 N {y (x n, w) - t n} 2 + N 2 ln β - N 2 ln (2 π)$ $\ln p(T|X, w, \beta) = -\frac{\beta}{2}\sum\limits_{n=1}^{N}\{y(x_n, w) - t_n\}^2 + \frac{N}{2}\ln{\beta} - \frac{N}{2}\ln{(2\pi)}$

考虑最大似然解，记作 $w_{ML}$ ，是对于 $w$ 的最大化得到的

拟合方法

忽略与 w 无关的项，上式最右2项。
- 用一个正系数来缩放似然函数的对数，这样不会改变它关于 $w$ 的最大值的位置，所以我们可以使用 1/2来代替 $β/2$
- 最小化似然函数的负对数，等价于最大化似然函数的对数
- 拟合结果
  
  对于确定 $w$ 的最大化似然等价于最小化平方和的误差函数
  
  平方和误差函数是采用高斯噪声的最大似然的结果
  
  用最大似然来确定高斯条件分布的精度参数 $β$ ：
  
  1βML=1N∑n=1N{y(xx,wML)−tn}2
  
  最大化 $β$
  1. 首先确定控制均值的参数向量 $w_{ML}$ ，
  2. 然后使用这个结果来确定精度 $β_{ML}$ 。
  3. 确定好参数 $w,β$ 后，就可以对新的值 $x$ 做预测
    
    最大后验
    
    现在用概率模型，可以使用一种称为预测分布（predictive distribution）来表达 $t$ 的概率分布，来代替一个简单的点估计。
    方法：代入最大似然参数
    
    $p (t | x, w M L, β M L) = N (t | y (x, w M L), β - 1 M L)$ $p(t|x, w_{ML}, \beta_{ML}) = \mathcal{N}(t|y(x, w_{ML}), \beta_{ML}^{-1})$
    在多项式系数 $w$ 上引入先验分布,考虑高斯分布：
    $p (w | α) = N (w | 0, α - 1 I) = (α 2 π) (M + 1) / 2 e x p {- α 2 w T w}$ $p(w|\alpha) = \mathcal{N}(w|0, \alpha^{-1}I) = \left(\frac{\alpha}{2\pi}\right)^{(M + 1)/2}exp\left\{-\frac{\alpha}{2}w^Tw\right\}$
    
    $α$ 是分布的精度， $M+1$ 是 $M$ 阶多项式的向量 $w$ 中元素个数。像 $α$ 这样的控制分布的模型参数被称为超参数（hyperparameters）
    
    使用贝叶斯定理， $w$ 的后验分布，正比于先验分布和似然函数的乘积：
    
    $p (w | X, T, α, β) \propto p (T | X, w, β) p (w | α)$ $p(w|X, T, \alpha, \beta) \propto p(T|X, w, \beta)p(w|\alpha)$
    
    对于给定的数据集，可以通过找到最可能的 $w$ 值来确定 $w$ ，即最大化后验分布。
    
    最大化后验概率就是最小化下式：
    
    $β 2 \sum n = 1 N {y (x n, w) - t n} 2 + α 2 w T w$ $\frac{\beta}{2}\sum\limits_{n=1}^{N}\{y(x_n, w) - t_n\}^2 + \frac{\alpha}{2}w^Tw$
    
    结论：最大化后验概率等价于最小化正则化的平方和误差函数
    正则化参数为 $λ=α/β$