线性基函数模型
基本形式
y(x,w)=w0+w1x1+⋯+wDxD=w0+∑j=1M−1wjϕj(x)=∑j=0M−1wjϕj(x)=wTϕ(x)
Feature Extraction
决定基函数(basis function) {ϕj(x)} 的过程,基函数选取可以包括
- 线性
- 幂次(存在着一个feature变化其他的feature也会变化的情况)
- 高斯: ϕj(x)=exp{−(x−μj)22s2}
- sigmoid function
最大化似然函数和最小均方差(Maximum likelihood and least squares)
讨论最大似然方法和最小均方差的关系
t=y(x,w)+ϵ
其中 ϵ 是均值为0的高斯随机值,精度为 β (后面很多地方用到这个参数,其含义是数据的随机精度,是由数据本身确定的,在机器学习的过程中只能不断的去迫近这个值)。即有目标值概率密度函数符合高斯分布
p(t|x,w,β)=(t|y(x,w,β−1))
一般来说,如果用均方差函数,那么关于 t 的最优预测结果是分布的均值,对于上面的式子,其条件均值为
Example
Input values:
X={x1,⋯,xN}
,
t={t1,⋯,tN}
是从上面的高斯随机分布中产生的数据,得到下面的似然函数
p(t|X,w,β)=∏n=1Nln(tn|wTϕ(xn),β−1)
是对于整个训练数据的目标值的概率分布密度函数,忽略条件参数中的 X 并且取对数得到对数似然函数
lnp(t|w,β)=∑n=1Nln(tn|wTϕ(xn),β−1)=N2lnβ−N2ln(2π)−βED(w)
其中的 ED(w) 是均方误差函数
ED(w)=12∑n=1N{tn−wTϕ(xn)}2
可以通过最大似然函数的方法去估计参数 w 和 β ,已知 在高斯噪声的假设下(也就是说正常情况下最大化似然函数所覆盖的范围是比最小化均方差大的),最大化似然函数等同于最小化均方差函数 ED(w) 。首先求对数似然函数关于 w 的梯度为
∇lnp(t|w,β)=∑n=1N{tn−wTϕ(xn)}ϕ(xn)T=0
存疑:这里涉及到矩阵求导,貌似上式中最后一项 Φ(xn)T 是采取了分子布局的结果,如果采取分母布局的化,应该是
∇lnp(t|w,β)=∑n=1Nϕ(xn){tn−wTϕ(xn)}
但是两者之间求出来的值是否一致还不清楚,需要进一步讨论。
解得
0=∑n=1Ntnϕ(xn)T−wT∑n=1Nϕ(xn)ϕ(xn)T
对该式求解,得到
wML=(ΦTΦ)−1ΦTt
其中
Φ=⎛⎝⎜⎜⎜⎜ϕ0(x1)ϕ0(x2)⋮ϕ0(xN)ϕ1(x1)ϕ1(x2)⋮ϕ1(xN)⋯⋯⋱⋯ϕM−1(x1)ϕM−1(x2)⋮ϕM−1(xN)⎞⎠⎟⎟⎟⎟
这个推导过程还没有自己验证成功过 T^T
当把 ED(w) 中的 w0 提出来,得到
ED(w)=12∑n=1N{tn−wTϕ(xn)}2=12∑n=1N{tn−∑j=0M−1wjϕj(xn)}2=12∑n=1N{tn−w0−∑j=1M−1wjϕj(xn)}2
对 w0 求导,得到
w0=t⎯−∑j=1M−1wjϕj⎯⎯⎯⎯t⎯=1N∑n=1Ntnϕj⎯⎯⎯⎯=1N∑n=1Nϕj(xn)
因此实际上 w0 刻画了目标值的均值和基函数的加权和的差值。相似的,易得 β 的最大似然估计为
1βML=1N∑n=1N{tn=wTMLϕ(xn)}2