第一章绪论

最新推荐文章于 2024-09-14 20:23:55 发布

Un-Infinite

最新推荐文章于 2024-09-14 20:23:55 发布

阅读量830

点赞数

分类专栏： PRML学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/MrChen11/article/details/47379781

版权

PRML学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. 贝叶斯概率公式

加法规则： $p(X)=\sum\limits_Yp(X,Y)$

乘法规则： $p(X,Y)=p(Y|X)p(X)$

贝叶斯公式： $p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}$

2. 用贝叶斯的观点解释多项式拟合

本节对应PRML （Pattern Recognition and Machine Learning）的1.2.5节。给定训练集 $\mathbf{x}=(x_1,x_2,\dots,x_N)^T$ ，样本标签 $\mathbf{t}=(t_1,t_2,\dots,t_N)^T$ ，可以用一个高斯分布来描述目标值 $\mathbf{t}$ 的不确定性。对于多项式拟合来说，我们有

y (x, x) = w 0 + w 1 x + w 2 x + \dots + w M x = \sum j = 0 M w j x j

$y(x,\mathbf{x})=w_0+w_1x+w_2x+\dots+w_Mx=\sum_{j=0}^Mw_jx^j$
其中

M $M$ 是多项式的阶数，

xj $x^j$ 是

x $x$ 的

j $j$ 次幂。拟合误差

e n = y (x n, w) - t n, n = 1, 2, \dots, N

$e_n=y(x_n,\mathbf w)-t_n, n=1,2,\dots,N$

按照贝叶斯理论的观点，拟合误差服从均值为 $0$ 方差为 $\sigma^2$ 的高斯分布，记 $\beta=\frac{1}{\sigma^2}$ ，即 $e_n\sim\mathcal{N}(0,\beta^{-1})$ 。下图显示了这种描述关系

因此训练数据 $\{\mathbf x,\mathbf t\}$ 可以用来估计 $\mathbf x$ 和 $\beta$ 的最大似然估计值。似然函数

p (t | x, w, β) = \prod n = 1 N N (t n | y (x n, w), β - 1)

$p(\mathbf t|\mathbf x,\mathbf w,\beta)=\prod\limits_{n=1}^N\mathcal N(t_n|y(x_n,w),\beta^{-1})$
对似然函数取对数，得

ln p (t | x, w, β) = - β 2 \sum n = 1 N (y (x n, w) - t n) 2 + N 2 ln β - N 2 ln (2 π)

$\ln p(\mathbf t|\mathbf x,\mathbf w,\beta)=-\frac{\beta}{2}\sum_{n=1}^N(y(x_n,\mathbf w)-t_n)^2+\frac{N}{2}\ln\beta-\frac{N}{2}\ln (2\pi)$

当取 $\beta=1$ 时，对数似然函数可以简化为

ln p (t | x, w, 1) = - 1 2 \sum n = 1 N (y (x n, w) - t n) 2

$\ln p(\mathbf t|\mathbf x,\mathbf w,1)=-\frac{1}{2}\sum_{n=1}^N(y(x_n,\mathbf w)-t_n)^2$
最大化对数函数等价于最小化误差平方和函数，此时与多项式拟合的目标变的一致。当参数

β $\beta$ 不是固定值时，我们精度参数，因为

β $\beta$ 与误差的方差有关，从上图也可以看出。同样，对数似然函数对

β−1 $\beta^{-1}$ （将

β−1 $\beta^{-1}$ 看成一个整体，而不是一个数的倒数）求偏导，令偏导数等于0，可求得

β−1 $\beta^{-1}$ 的最大似然估计值

1 β M L = 1 N \sum n = 1 N (y (x n, w M L) - t n) 2

$\frac{1}{\beta_{ML}}=\frac{1}{N}\sum_{n=1}^N(y(x_n,\mathbf w_{ML})-t_n)^2$
其中

wML $\mathbf w_{ML}$ 是参数

w $\mathbf w$ 的最大似然估计值。

估计出参数 $\mathbf w$ 和 $\beta$ 之后，我们可以对测试集中的 $x$ 做预测，并且可以给出预测值等于 $t$ 的概率，这是利用贝叶斯方法估计参数的优点之一。

p (t | x, w M L, β M L) = N (t | y (x, w), β - 1 M L)

$p(t| x,\mathbf w_{ML},\beta_{ML})=\mathcal N(t|y(x,\mathbf w),\beta_{ML}^{-1})$
此时是相对于测试集来说的。

下面用贝叶斯的观点来解释模型参数正则化，来解决过拟合问题。假定多项式系数 $\mathbf w$ 也服从如下的高斯分布

p (w | α) = N (w | 0, α - 1 I) = (α 2 π) (M + 1) / 2 exp (- α 2 w T w)

$p(\mathbf w|\alpha)=\mathcal N(\mathbf w|0,\alpha^{-1}\mathbf I)=\left(\frac{\alpha}{2\pi}\right)^{(M+1)/2}\exp\left(-\frac{\alpha}{2}\mathbf w^T\mathbf w\right)$
其中

α $\alpha$ 称之为超参数，控制参数

w $\mathbf w$ 的分布。应用贝叶斯定理，

w $\mathbf w$ 后验分布正比于先验分布和似然函数的成绩

p (w | x, t, α, β) \propto p (t | x, w, β) p (w | α)

$p(\mathbf w|\mathbf x,\mathbf t,\alpha,\beta)\varpropto p(\mathbf t|\mathbf x,\mathbf w,\beta)p(\mathbf w|\alpha)$
原因是：

p(w|x,t,α,β)=p(w,x,t,α,β)/p(x,t,α,β)=p(t|w,x,α,β)p(w,x,α,β)/p(x,t,α,β) $p(\mathbf w|\mathbf x,\mathbf t,\alpha,\beta)=p(\mathbf w,\mathbf x,\mathbf t,\alpha,\beta)/p(\mathbf x,\mathbf t,\alpha,\beta) = p(\mathbf t|\mathbf w,\mathbf x,\alpha,\beta)p(\mathbf w,\mathbf x,\alpha,\beta)/p(\mathbf x,\mathbf t,\alpha,\beta)$

α $\alpha$ 与

t $\mathbf t$ 无关，故

p(t|w,x,b,α) $p(\mathbf t |\mathbf w,\mathbf x,b,\alpha)$ 中

α $\alpha$ 可省略，因为

α $\alpha$ 是

w $\mathbf w$ 的超参故

p(w|x,β,α)=p(w|α) $p(\mathbf w|\mathbf x,\beta,\alpha)=p(\mathbf w|\alpha)$ 。
通过最大化后验概率（MAP），我们可以估计出所有的参数，其对数似然函数是

β 2 \sum n = 1 N (y (x n, w) - t n) 2 + α 2 w T w

$\frac{\beta}{2}\sum_{n=1}^N(y(x_n,\mathbf w)-t_n)^2+\frac{\alpha}{2}\mathbf w^T\mathbf w$
上式省略了与参数无关“常数项”。此时相当于正则项的惩罚系数

λ=α/β $\lambda=\alpha/\beta$ 。

3. 贝叶斯曲线拟合

前面的分析我们加入了先验分布 $p(\mathbf w|\alpha)$ ，但是我们对 $\mathbf w$ 估计任然是点估计，因此还不能将其视为贝叶斯解法。在整套贝叶斯方法下，我们将运用概率的求和法则和乘积法则，对 $\mathbf w$ 求积分得到关于 $\mathbf w$ 的边缘分布，这才是模式识别中贝叶斯方法的核心。

在曲线拟合中，我们给定训练集 $\mathbf x$ 和 $\mathbf t$ ，估计出模型参数 $\mathbf w$ ，对于预测集中的点 $x$ ，我们的目标是用这个模型预测出与这个点相对应的目标值 $t$ 。这里我们假定 $\alpha$ 和 $\beta$ 是固定并且已知的（在后面的章节中我们将讨论如何在贝叶斯的框架下面从训练数据中估计这两个参数）。

我们最终需要在预测集上得到如下的分布

p (t | x, x, t) = \int p (t | x, w) p (w | x, t) d w

$p(t|x,\mathbf x,\mathbf t)=\int p(t|x,\mathbf w)p(\mathbf w|\mathbf x,\mathbf t)d\mathbf w$

推导过程是：根据贝叶斯求和法则（对连续型变量来说相当于积分） $p(t|x,\mathbf x,\mathbf t)=\int p(t,\mathbf w|x,\mathbf x,\mathbf t) d\mathbf w$ ， $p(t,\mathbf w|x,\mathbf x,\mathbf t) =\frac{p(t,\mathbf w,x,\mathbf x,\mathbf t) }{p(x,\mathbf x,\mathbf t) }=\frac{p(t,\mathbf w,x,\mathbf x,\mathbf t)}{p(\mathbf w,x,\mathbf x,\mathbf t)}\frac{p(\mathbf w,x,\mathbf x,\mathbf t)}{p(x,\mathbf x,\mathbf t) }$ $=p(t|\mathbf w,x,\mathbf x,\mathbf t) p(\mathbf w|x,\mathbf x,\mathbf t)$ ，由于 $t$ 关于 $\mathbf x$ 和 $\mathbf t$ 条件独立，因此 $p(t|\mathbf w,x,\mathbf x,\mathbf t)$ 可以简化为 $p(t|\mathbf w,x)$ ，而 $\mathbf w$ 与测试集中的点 $x$ 无关，所以 $p(\mathbf w|x,\mathbf x,\mathbf t)=p(\mathbf w|\mathbf x,\mathbf t)$ ，综合起来 $p(t|x,\mathbf x,\mathbf t)=\int p(t|x,\mathbf w)p(\mathbf w|\mathbf x,\mathbf t)d\mathbf w$ 。