机器学习--线性回归

基函数

在一些应用中,我们对原始数据变量进行一些预处理或特征提取。

比如原始变量为x,特征可以表示为基函数的形式{φ(x)}。

通过采用基函数,我们使得线性模型可以是输入变量的非线性函数。

  • 将输⼊变量的固定的非线性函数进⾏线性组合

y ( x , w ) = w 0 + ∑ j = 1 M − 1 w j ϕ j ( x ) y(x,w)=w_0+\sum_{j=1}^{M-1}w_j\phi_j(x) y(x,w)=w0+j=1M1wjϕj(x)

ϕ j ( x ) \phi_j(x) ϕj(x)被称为基函数

模型中的参数总数为M

y ( x , w ) = ∑ j = 0 M − 1 w j ϕ j ( x ) = w T ϕ ( x ) y(\boldsymbol{x},\boldsymbol{w})=\sum_{j=0}^{M-1}w_j\phi_j(\boldsymbol{x})=\boldsymbol{w}^T\phi(\boldsymbol{x}) y(x,w)=j=0M1wjϕj(x)=wTϕ(x)

w = ( w 0 , … , w M − 1 ) T \boldsymbol{w}=(w_0,\ldots,w_{M-1})^T w=(w0,,wM1)T ϕ = ( ϕ 0 , … , ϕ M − 1 ) T \phi=(\phi_0,\ldots,\phi_{M-1})^T ϕ=(ϕ0,,ϕM1)T

基函数的选择

  1. 多项式基函数

    多项式曲线拟合:

    y ( x , w ) = w 0 + w 1 x + w 2 x 2 + … + w M x M = ∑ j = 0 M w j x j y(x,\boldsymbol{w})=w_0+w_1x+w_2x^2+\ldots+w_Mx^M=\sum_{j=0}^Mw_jx^j y(x,w)=w0+w1x+w2x2++wMxM=j=0Mwjxj

    其中M是多项式的阶数(order), x j x^j xj x x x j j j次幂

    多项式系数 w 0 , . . . , w M w_{0},...,w_{M} w0,...,wM整体记作向量 w w w

    多项式函数 y ( x , w ) y(x,w) y(x,w) x x x的一个非线性函数

    是系数 w w w的一个线性函数
    在这里插入图片描述

  2. “高斯”基函数

    “高斯”基函数:

    ϕ j ( x ) = exp ⁡ { − ( x − μ j ) 2 2 s 2 } \phi_j(x)=\exp\left\{-\frac{(x-\mu_j)^2}{2s^2}\right\} ϕj(x)=exp{2s2(xμj)2}

    参数 μ j \mu_j μj控制了基函数在输入空间中的位置,参数 s s s控制了基函数的空间大小
    在这里插入图片描述

  3. sigmoid基函数

    sigmoid:

    ϕ j ( x ) = σ ( x − μ j s ) w h e r e σ ( a ) = 1 1 + exp ⁡ ( − a ) \phi_j(x)=\boldsymbol{\sigma}\Bigg(\frac{x-\mu_j}{s}\Bigg)\quad\text\\\\{where}\quad\sigma(a)=\frac{1}{1+\exp(-a)} ϕj(x)=σ(sxμj)whereσ(a)=1+exp(a)1
    在这里插入图片描述

ϕ j ( x ) = x j \phi_j(x)=x^j ϕj(x)=xj

正则化最小平方

为误差函数添加正则化项的思想来控制过拟合

E D ( w ) + λ E W ( w ) E_D(\boldsymbol{w})+\lambda E_W(\boldsymbol{w}) ED(w)+λEW(w)

λ是正则化系数,控制数据相关的误差 ∗ E D ( w ) ∗ *E_D(w)* ED(w)和正则化项 ∗ E W ( w ) ∗ *E_W(w)* EW(w)的相对重要性

平方和误差函数:

E D ( w ) = 1 2 ∑ n = 1 N { t n − w T ϕ ( x n ) } 2 E_D(\boldsymbol{w})=\frac{1}{2}\sum_{n=1}^N\{t_n-\boldsymbol{w}^T\boldsymbol{\phi}(\boldsymbol{x}_n)\}^2 ED(w)=21n=1N{tnwTϕ(xn)}2

最简单正则化项——权值衰减:

E W ( w ) = 1 2 w T w E_W(\boldsymbol{w})=\frac12\boldsymbol{w}^T\boldsymbol{w} EW(w)=21wTw

总误差函数

w T ϕ ( x n ) } 2 + λ 2 w T w \boldsymbol{w}^T\phi(\boldsymbol{x}_n)\}^2+\frac\lambda2\boldsymbol{w}^T\boldsymbol{w} wTϕ(xn)}2+2λwTw

                                             岭回归、山脊回归(Ridge Regression)

权值衰减法:把参数的值向零的方向收缩

岭回归的闭式解

1 2 ∑ n = 1 N { t n − w T ϕ ( x n ) } 2 + λ 2 w T w \frac12\sum_{n=1}^N\{t_n-\boldsymbol{w}^T\phi(\boldsymbol{x}_n)\}^2+\frac\lambda2\boldsymbol{w}^T\boldsymbol{w} 21n=1N{tnwTϕ(xn)}2+2λwTw

关于w的梯度等于零,解出w

. 正则化解 w = ( λ I + Φ T Φ ) − 1 Φ T t w=(\lambda\boldsymbol{I}+\boldsymbol{\Phi}^T\boldsymbol{\Phi})^{-1}\boldsymbol{\Phi}^T\mathbf{t} w=(λI+ΦTΦ)1ΦTt

原来求逆的矩阵 Φ T Φ \Phi^{\mathrm{T}}\Phi ΦTΦ 可能是奇异阵的,现在 λ I + Φ T Φ \lambda\mathbf{I}+\Phi^{\mathrm{T}}\Phi λI+ΦTΦ 是满秩矩阵, 即使 Φ T Φ \Phi^{\mathrm{T}}\Phi ΦTΦ 不是.

在这里插入图片描述

一般式正则化项

1 2 ∑ n = 1 N { t n − w T Φ ( x n ) } 2 + λ 2 ∑ j = 1 M ∣ w j ∣ q \frac12\sum_{n=1}^N\{t_n-\boldsymbol{w}^T\boldsymbol{\Phi}(\boldsymbol{x}_n)\}^2+\frac\lambda2\sum_{j=1}^M|w_j|^q 21n=1N{tnwTΦ(xn)}2+2λj=1Mwjq

在这里插入图片描述

q = 2对应于二次正则化项,被称为岭回归、山脊回归(Ridge Regression)

q = 1对应于一次正则化项,被称为套索**(Lasso)回归**

Lasso回归当 λ 足够大时,一些系数会趋近于0,对应的基函数项不发挥作用,从而得到一个稀疏的模型。****

最小化 1 2 ∑ n = 1 N { t n − w T Φ ( x n ) } 2 + λ 2 ∑ j = 1 M ∣ w j ∣ q \frac12\sum_{n=1}^N\{t_n-\boldsymbol{w}^T\boldsymbol{\Phi}(\boldsymbol{x}_n)\}^2+\frac\lambda2\sum_{j=1}^M|w_j|^q 21n=1N{tnwTΦ(xn)}2+2λj=1Mwjq

在这里插入图片描述

在这里插入图片描述

正则化方法

通过限制模型的复杂度,使得复杂的模型能够在有限⼤⼩的数据集上进⾏训练,⽽不会产⽣严重的过拟合

确定最优的模型复杂度的问题:

从确定合适的基函数数量的问题转移到了确定正则化系数λ的合适值的问题 。

  • 44
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值