基函数
在一些应用中,我们对原始数据变量进行一些预处理或特征提取。
比如原始变量为x,特征可以表示为基函数的形式{φ(x)}。
通过采用基函数,我们使得线性模型可以是输入变量的非线性函数。
- 将输⼊变量的固定的非线性函数进⾏线性组合
y ( x , w ) = w 0 + ∑ j = 1 M − 1 w j ϕ j ( x ) y(x,w)=w_0+\sum_{j=1}^{M-1}w_j\phi_j(x) y(x,w)=w0+j=1∑M−1wjϕj(x)
ϕ j ( x ) \phi_j(x) ϕj(x)被称为基函数
模型中的参数总数为M
y ( x , w ) = ∑ j = 0 M − 1 w j ϕ j ( x ) = w T ϕ ( x ) y(\boldsymbol{x},\boldsymbol{w})=\sum_{j=0}^{M-1}w_j\phi_j(\boldsymbol{x})=\boldsymbol{w}^T\phi(\boldsymbol{x}) y(x,w)=j=0∑M−1wjϕj(x)=wTϕ(x)
w = ( w 0 , … , w M − 1 ) T \boldsymbol{w}=(w_0,\ldots,w_{M-1})^T w=(w0,…,wM−1)T ϕ = ( ϕ 0 , … , ϕ M − 1 ) T \phi=(\phi_0,\ldots,\phi_{M-1})^T ϕ=(ϕ0,…,ϕM−1)T
基函数的选择
-
多项式基函数
多项式曲线拟合:
y ( x , w ) = w 0 + w 1 x + w 2 x 2 + … + w M x M = ∑ j = 0 M w j x j y(x,\boldsymbol{w})=w_0+w_1x+w_2x^2+\ldots+w_Mx^M=\sum_{j=0}^Mw_jx^j y(x,w)=w0+w1x+w2x2+…+wMxM=j=0∑Mwjxj
其中M是多项式的阶数(order), x j x^j xj是 x x x的 j j j次幂
多项式系数 w 0 , . . . , w M w_{0},...,w_{M} w0,...,wM整体记作向量 w w w
多项式函数 y ( x , w ) y(x,w) y(x,w)是 x x x的一个非线性函数
是系数 w w w的一个线性函数
-
“高斯”基函数
“高斯”基函数:
ϕ j ( x ) = exp { − ( x − μ j ) 2 2 s 2 } \phi_j(x)=\exp\left\{-\frac{(x-\mu_j)^2}{2s^2}\right\} ϕj(x)=exp{−2s2(x−μj)2}
参数 μ j \mu_j μj控制了基函数在输入空间中的位置,参数 s s s控制了基函数的空间大小
-
sigmoid基函数
sigmoid:
ϕ j ( x ) = σ ( x − μ j s ) w h e r e σ ( a ) = 1 1 + exp ( − a ) \phi_j(x)=\boldsymbol{\sigma}\Bigg(\frac{x-\mu_j}{s}\Bigg)\quad\text\\\\{where}\quad\sigma(a)=\frac{1}{1+\exp(-a)} ϕj(x)=σ(sx−μj)whereσ(a)=1+exp(−a)1
ϕ j ( x ) = x j \phi_j(x)=x^j ϕj(x)=xj
正则化最小平方
为误差函数添加正则化项的思想来控制过拟合
E D ( w ) + λ E W ( w ) E_D(\boldsymbol{w})+\lambda E_W(\boldsymbol{w}) ED(w)+λEW(w)
λ是正则化系数,控制数据相关的误差 ∗ E D ( w ) ∗ *E_D(w)* ∗ED(w)∗和正则化项 ∗ E W ( w ) ∗ *E_W(w)* ∗EW(w)∗的相对重要性
平方和误差函数:
E D ( w ) = 1 2 ∑ n = 1 N { t n − w T ϕ ( x n ) } 2 E_D(\boldsymbol{w})=\frac{1}{2}\sum_{n=1}^N\{t_n-\boldsymbol{w}^T\boldsymbol{\phi}(\boldsymbol{x}_n)\}^2 ED(w)=21n=1∑N{tn−wTϕ(xn)}2
最简单正则化项——权值衰减:
E W ( w ) = 1 2 w T w E_W(\boldsymbol{w})=\frac12\boldsymbol{w}^T\boldsymbol{w} EW(w)=21wTw
总误差函数
w T ϕ ( x n ) } 2 + λ 2 w T w \boldsymbol{w}^T\phi(\boldsymbol{x}_n)\}^2+\frac\lambda2\boldsymbol{w}^T\boldsymbol{w} wTϕ(xn)}2+2λwTw
岭回归、山脊回归(Ridge Regression)
权值衰减法:把参数的值向零的方向收缩
岭回归的闭式解
1 2 ∑ n = 1 N { t n − w T ϕ ( x n ) } 2 + λ 2 w T w \frac12\sum_{n=1}^N\{t_n-\boldsymbol{w}^T\phi(\boldsymbol{x}_n)\}^2+\frac\lambda2\boldsymbol{w}^T\boldsymbol{w} 21n=1∑N{tn−wTϕ(xn)}2+2λwTw
关于w的梯度等于零,解出w
. 正则化解 w = ( λ I + Φ T Φ ) − 1 Φ T t w=(\lambda\boldsymbol{I}+\boldsymbol{\Phi}^T\boldsymbol{\Phi})^{-1}\boldsymbol{\Phi}^T\mathbf{t} w=(λI+ΦTΦ)−1ΦTt
原来求逆的矩阵 Φ T Φ \Phi^{\mathrm{T}}\Phi ΦTΦ 可能是奇异阵的,现在 λ I + Φ T Φ \lambda\mathbf{I}+\Phi^{\mathrm{T}}\Phi λI+ΦTΦ 是满秩矩阵, 即使 Φ T Φ \Phi^{\mathrm{T}}\Phi ΦTΦ 不是.
一般式正则化项
1 2 ∑ n = 1 N { t n − w T Φ ( x n ) } 2 + λ 2 ∑ j = 1 M ∣ w j ∣ q \frac12\sum_{n=1}^N\{t_n-\boldsymbol{w}^T\boldsymbol{\Phi}(\boldsymbol{x}_n)\}^2+\frac\lambda2\sum_{j=1}^M|w_j|^q 21n=1∑N{tn−wTΦ(xn)}2+2λj=1∑M∣wj∣q
q = 2对应于二次正则化项,被称为岭回归、山脊回归(Ridge Regression)
q = 1对应于一次正则化项,被称为套索**(Lasso)回归**
Lasso回归当 λ 足够大时,一些系数会趋近于0,对应的基函数项不发挥作用,从而得到一个稀疏的模型。****
最小化 1 2 ∑ n = 1 N { t n − w T Φ ( x n ) } 2 + λ 2 ∑ j = 1 M ∣ w j ∣ q \frac12\sum_{n=1}^N\{t_n-\boldsymbol{w}^T\boldsymbol{\Phi}(\boldsymbol{x}_n)\}^2+\frac\lambda2\sum_{j=1}^M|w_j|^q 21∑n=1N{tn−wTΦ(xn)}2+2λ∑j=1M∣wj∣q
正则化方法
通过限制模型的复杂度,使得复杂的模型能够在有限⼤⼩的数据集上进⾏训练,⽽不会产⽣严重的过拟合。
确定最优的模型复杂度的问题:
从确定合适的基函数数量的问题转移到了确定正则化系数λ的合适值的问题 。