关闭

3.1 线性基函数模型

标签: 机器学习模式识别PRML贝叶斯方法
600人阅读 评论(1) 收藏 举报
分类:

3.1 线性基函数模型

1、基本概念

回归问题最简单的模型是变量的线性组合:

y(x,ω)=ω0+ω1x1+...++ωDxD

由于线性函数的局限,有时需要与非线性函数组合使用:

y(x,ω)=ω0+j=1M1ωjϕj(x)

其中ϕj(x)被称为基函数(basis function),通常又定义一个格外的“基函数”ϕ0(x)=1 以便将公式简写为:
y(x,ω)=j=0M1ωjϕj(x)=ωTΦ(x)

常用的基函数有:
ϕj(x)=exp{(xμj)22s2}

sigmoidϕj(x)=σ(xμjs)

其中σ(a) 是logistic sigmoid函数,表示为:
σ(a)=11+exp(a)

等价地还可以使用tanh函数,它与logistic sigmoid函数的关系为:
tanh(a)=2σ(2a)1

因此在线性组合中可以替换使用。

即便如此,y(x,ω) 本质上仍是线性模型,它虽然是 x 的非线性函数但却是 ω 的线性函数,依然没有完全摆脱线性函数的局限性。

2、最⼤似然与最⼩平⽅

ωML=(ΦTΦ)1ΦTt

3、顺序学习

最大似然法需要一次处理整个数据集,这种批处理技术对于⼤规模数据集来说计算量相当大。所以当数据集规模较大时,适合用顺序算法(也称在线算法)。每次只考虑一个数据点,每次学习后更新参数。
常用的顺序算法是随机梯度下降法(stochastic gradient descent),假设误差函数由数据点的和组成 E=nEn ,参数 ω 的更新过程为:

ω(γ+1)=ω(γ)ηEn

其中 γ 表示迭代次数,η 表示学习率。
对于平方和误差函数,有:
ω(γ+1)=ω(γ)η(tnω(γ)Tϕn)ϕn

其中 ϕn=ϕ(xn),这被称为最⼩均⽅(least-mean-squares)或者LMS算法。

4、正则化最小平方

可以为误差函数添加正则化项来控制过拟合,则误差函数的形式为:

ED(ω)+λEW(ω)

其中 λ 为正则化系数,用于调整正则化项的重要程度。
正则化项的⼀个最简单的形式为权向量的各个元素的平⽅和:
EW(ω)=12ωTω

这种对于正则化项的选择⽅法在机器学习的⽂献中被称为权值衰减(weight decay),随着 λ 的增⼤,正则化项的影响越来越大,越来越多的参数趋向于变为零。

1
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:18470次
    • 积分:512
    • 等级:
    • 排名:千里之外
    • 原创:27篇
    • 转载:0篇
    • 译文:6篇
    • 评论:4条
    文章分类
    最新评论