[算法]PRML学习笔记1.2.5曲线拟合(Curve fitting re-visited)

参考文献:Pattern Recognition and Machine Learning
Published by Springer | January 2006
https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/

简介

在前面章节的学习中,已经可以看到如何解决多项式曲线拟合(polynomial curve fitting)的问题,可以采用误差最小(error minimization)的方式。现在从概率的角度(probabilistic perspective)回过头来看曲线拟合的问题,从而获得了一些关于误差函数(error functions)和正则化(regularization)的见解,以及走入一个完整的贝叶斯(Bayesian)处理方式。

曲线拟合

曲线拟合问题的目标是由N个输入值 x = ( x 1 , . . . , x N ) T x=(x_1,...,x_N)^T x=(x1,...,xN)T以及 t = ( t 1 , . . . , t N ) T t=(t_1,...,t_N)^T t=(t1,...,tN)T组成的一组训练数据的基础上,给定一组新的输入变量(input variable) x x x,对目标变量(target variable) t t t进行预测。这里可以使用概率分布(probability distribution)来表示目标变量值的不确定性(uncertainty)。为此,这里假设,给定 x x x的值,与其相应的 t t t值具有高斯分布(Gaussian distribution),其平均值等于(1.1)给出的多项式曲线的值 y ( x , w ) y(x,w) y(x,w)。所以, 可以得出公式(1.60): p ( t ∣ x , w , β ) = N ( t ∣ y ( w , x ) , 1 β ) p(t|x,w, \beta) = \Nu (t|y(w,x),\frac{1}{\beta}) p(tx,w,β)=N(ty(w,x),β1)

在这里,为了与后面的章节中的符号保持一致,定义了一个精度参数(precision parameter ) β \beta β,它对应于分布的反方差(inverse variance )。图1.16对此进行了示意性说明。

在这里插入图片描述
上图为由(1.60)基于给定的 x x x给出的 t t t的高斯条件分布的示意图,其中平均值由多项式函数 y ( x , w ) y(x,w) y(x,w)给出,而精度由参数 β \beta β给出,其与方差有关 β − 1 = σ 2 \beta-1=\sigma^2 β1=σ2

最大似然(maximum likelihood)

现在使用训练数据 x , t {x,t} x,t通过最大似然的方式来确定未知参数 w w w β \beta β的值。如果假设数据是基于(1.60)公式分布中独立(independently)拉取的,则似然函数为如下公式(1.61): p ( t ∣ x , w , β ) = ∏ n = 1 N N ( t n ∣ y ( x n , w ) , 1 β ) p(t|x,w, \beta) = \displaystyle \prod^{N}_{n=1}{\Nu(t_n|y(x_n,w),\frac{1}{\beta})} p(tx,w,β)=n=1NN(tny(xn,w),β1)

正如1.2.4中对简单高斯分布所做的那样,将似然函数的对数最大化(maximize the logarithm)是更方便的。替换由(1.46)给出的高斯分布形式,将得到的对数似然函数形式为(1.62): I n p ( t ∣ x , w , β ) = − β 2 ∑ n = 1 N ( y ( x n , w ) − t n ) 2 ) + N 2 I n β − N 2 I n ( 2 π ) Inp(t|x,w, \beta) = -\frac{\beta}{2}\displaystyle \sum^{N}_{n=1}{(y(x_n,w)-t_n)^2)}+\frac{N}{2}In\beta-\frac{N}{2}In(2\pi) Inp(tx,w,β)=2βn=1N(y(xn,w)tn)2)+2NInβ2NIn(2π)
在这里插入图片描述
首先考虑确定多项式系数的最大似然解,这将由 w M L wML wML表示。 这些是通过相对于 w w w最大化(1.62)来确定的。 为此,这里可以省略(1.62)右侧的最后两项,因为它们不依赖于 w w w。 另外,这里注意到用正常数系数(positive constant coefficient)对数似然度进行缩放不会改变最大值相对于w的位置,因此可以将系数 β \beta β替换为1/2。 最后,代替最大化对数似然(log likelihood,),这里可以等效地使负对数似然最小化(minimize the negative log likelihood)。 因此,可以认为,就确定 w w w而言,最大似然等效于最小化由(1.2)定义的平方和误差函数(sum-of-squares error function)。 因此,在高斯噪声分布(Gaussian noise distribution)的假设下,平方和误差函数作为使似然最大化的结果而出现。
在这里插入图片描述

这里还可以使用最大似然来确定高斯条件分布的精度参数β。 相对于 β \beta β最大化(1.62)得到如下公式(1.63): 1 β M L = 1 N ∑ n = 1 N ( y ( x n , w M L ) − t n ) 2 \frac{1}{\beta ML} = \frac{1}{N}\displaystyle \sum^{N}_{n=1}{(y(x_n,wML)-t_n)^2} βML1=N1n=1N(y(xn,wML)tn)2

同样,可以首先确定控制均值的参数向量 w M L wML wML,然后像简单的高斯分布一样使用它来找到精度 β M L \beta ML βML

确定参数 w w w β \beta β后,现在可以预测 x x x的新值。 因为现在有一个概率模型(probabilistic model),并且它们用预测分布(predictive distribution)表示,该预测分布给出了 t t t上的概率分布(probability distribution),这不是简单的点估计,而是通过将最大似然参数代入(1.60)得到如下公式(1.64): p ( t ∣ x , w M L , β M L ) = N ( t ∣ y ( x , w M L ) , 1 β M L ) p(t|x,wML, \beta ML) = \Nu (t|y(x,wML),\frac{1}{\beta ML}) p(tx,wML,βML)=N(ty(x,wML),βML1)

最大后验(maximum posterior)

现在,迈向一种更加贝叶斯的方法,并介绍多项式系数 w w w先验分布(prior distribution)。 为简单起见,这里考虑该形式的高斯分布,如下公式(1.65): p ( w ∣ α ) = N ( w ∣ 0 , I α ) = ( α 2 π ) ( M + 1 ) / 2 e x p ( − α 2 w T w ) p(w|\alpha)=\Nu(w|0,\frac{I}{\alpha})=(\frac{\alpha}{2\pi})^{(M+1)/2}exp(-\frac{\alpha}{2}w^Tw) p(wα)=N(w0,αI)=(2πα)(M+1)/2exp(2αwTw)

其中 α \alpha α分布的精度,M + 1是向量(vector) w w w第M阶多项式的元素总数控制模型参数分布的变量(例如 α \alpha α)称为超参数(hyperparameters)。 使用贝叶斯定理, w w w的后验分布(posterior distribution)先验分布(prior distribution)和似然函数的乘积成比例,如下公式(1.66)展示: p ( w ∣ x , t , α , β ) α p ( t ∣ x , w , β ) p ( w ∣ α ) p(w|x,t,\alpha,\beta) \alpha p(t|x,w,\beta)p(w|\alpha) p(wx,t,α,β)αp(tx,w,β)p(wα)

现在可以通过在给定数据的情况下找到 w w w最可能的值,换句话说,通过最大化后验分布(maximizing the posterior distribution)来确定 w w w。 此技术称为最大后验(maximum posterior),或简称为MAP。 取(1.66)的负对数并与(1.62)和(1.65)组合,发现后验的最大值由如下公式(1.67)的最小值给出: β 2 ∑ n = 1 N ( y ( x n , w ) − t n ) 2 + α 2 w T w \frac{\beta}{2}\displaystyle \sum^{N}_{n=1}{(y(x_n,w)-t_n)^2}+\frac{\alpha}{2}w^Tw 2βn=1N(y(xn,w)tn)2+2αwTw

因此,看到最大化后验分布等效于最小化前面形式(1.4)中遇到的正则化平方和误差函数(regularized sum-of-squares error function),且正则化参数由 λ = α / β \lambda=\alpha/\beta λ=α/β给出。

总结

曲线拟合

  1. 目标:给定的输入值 x x x以及对应目标变量 t t t - > 建立模型,搭建参数 - > 输入新的输入值 x x x - > 对目标变量 t t t进行预测
  2. 给定的输入值 x x x以及对应目标变量 t t t具有高斯分布
  3. 精度参数 β \beta β与方差有关: β − 1 = σ 2 \beta-1=\sigma^2 β1=σ2

最大似然

  1. 数据是独立(independently)拉取的 - > 确定未知参数 w w w β \beta β的值
  2. 对数最大化
  3. 确定 w w w而言,最大似然等效于最小化平方和误差函数
  4. 首先确定控制均值的参数向量 w M L wML wML,然后像简单的高斯分布一样使用它来找到精度 β M L \beta ML βML
  5. 确定参数 w w w β \beta β - > 概率模型 -> 预测 t t t上的概率分布
  6. 这不是简单的点估计,而是通过将最大似然参数代入

最大后验

  1. w w w的先验分布 - > 高斯分布
  2. α \alpha α是分布的精度;M + 1是向量(vector) w w w中第M阶多项式的元素总数
  3. 超参数(hyperparameters):控制模型参数分布的变量
  4. w w w的后验分布先验分布和似然函数的乘积 成比例
  5. 最大化后验分布 (MAP) - > 找到 w w w最可能的值
  6. 最大化后验分布等效于最小化正则化平方和误差函数;正则化参数 λ = α / β \lambda=\alpha/\beta λ=α/β
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值