PRML读书笔记(1)——第三章 线性回归模型

线性基函数模型

基本形式

y(x,w)=w0+w1x1++wDxD=w0+j=1M1wjϕj(x)=j=0M1wjϕj(x)=wTϕ(x)

Feature Extraction

决定基函数(basis function) {ϕj(x)} 的过程,基函数选取可以包括

  • 线性
  • 幂次(存在着一个feature变化其他的feature也会变化的情况)
  • 高斯: ϕj(x)=exp{(xμj)22s2}
  • sigmoid function

最大化似然函数和最小均方差(Maximum likelihood and least squares)

讨论最大似然方法和最小均方差的关系

t=y(x,w)+ϵ

其中 ϵ 是均值为0的高斯随机值,精度为 β (后面很多地方用到这个参数,其含义是数据的随机精度,是由数据本身确定的,在机器学习的过程中只能不断的去迫近这个值)。即有目标值概率密度函数符合高斯分布
p(t|x,w,β)=(t|y(x,w,β1))

一般来说,如果用均方差函数,那么关于 t 的最优预测结果是分布的均值,对于上面的式子,其条件均值为
E[t|x]=tp(t|x)dt=y(x,w)

Example

Input values: X={x1,,xN} , t={t1,,tN} 是从上面的高斯随机分布中产生的数据,得到下面的似然函数

p(t|X,w,β)=n=1Nln(tn|wTϕ(xn),β1)

是对于整个训练数据的目标值的概率分布密度函数,忽略条件参数中的 X 并且取对数得到对数似然函数
lnp(t|w,β)=n=1Nln(tn|wTϕ(xn),β1)=N2lnβN2ln(2π)βED(w)

其中的 ED(w) 是均方误差函数
ED(w)=12n=1N{tnwTϕ(xn)}2

可以通过最大似然函数的方法去估计参数 w β ,已知 在高斯噪声的假设下(也就是说正常情况下最大化似然函数所覆盖的范围是比最小化均方差大的),最大化似然函数等同于最小化均方差函数 ED(w) 。首先求对数似然函数关于 w 的梯度为
lnp(t|w,β)=n=1N{tnwTϕ(xn)}ϕ(xn)T=0

存疑:这里涉及到矩阵求导,貌似上式中最后一项 Φ(xn)T 是采取了分子布局的结果,如果采取分母布局的化,应该是
lnp(t|w,β)=n=1Nϕ(xn){tnwTϕ(xn)}

但是两者之间求出来的值是否一致还不清楚,需要进一步讨论。

解得

0=n=1Ntnϕ(xn)TwTn=1Nϕ(xn)ϕ(xn)T

对该式求解,得到
wML=(ΦTΦ)1ΦTt

其中
Φ=ϕ0(x1)ϕ0(x2)ϕ0(xN)ϕ1(x1)ϕ1(x2)ϕ1(xN)ϕM1(x1)ϕM1(x2)ϕM1(xN)

这个推导过程还没有自己验证成功过 T^T
当把 ED(w) 中的 w0 提出来,得到
ED(w)=12n=1N{tnwTϕ(xn)}2=12n=1N{tnj=0M1wjϕj(xn)}2=12n=1N{tnw0j=1M1wjϕj(xn)}2

w0 求导,得到
w0=tj=1M1wjϕjt=1Nn=1Ntnϕj=1Nn=1Nϕj(xn)

因此实际上 w0 刻画了目标值的均值和基函数的加权和的差值。相似的,易得 β 的最大似然估计为
1βML=1Nn=1N{tn=wTMLϕ(xn)}2

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值