线性回归模型

线性回归模型

  首先明确回归模型的定义或者说回归模型和分类模型的区别:预测值是一个连续变量

一个常见的误解是linear model和linear regression之前的区别,线性模型是指对于参数 w w w是线性的,而提到线性回归又往往值对x的线性组合

Linear Basic Function Models

线性回归 linear regression

最简单的的线性模型:对输入向量的线性组合

y ( x , w ) = w 0 + w 1 x 1 + ⋯ + w D x D y(\textbf{x},w)=w_0+w_1x_1+\cdots+w_Dx_D y(x,w)=w0+w1x1++wDxD

此模型既是参数 w w w的线性函数,也是输入变量 x i x_i xi的线性函数

Linear Basic Function Models

单纯的线性组合使模型有较大的局限性,所以有如下扩展
y ( x , w ) = w 0 + ∑ j = 1 M − 1 w j ϕ j ( x ) y(\textbf{x},w)=w_0+\sum_{j=1}^{M-1}w_j\phi_j(x) y(x,w)=w0+j=1M1wjϕj(x)
ϕ j \phi_j ϕj称为基函数(basic function)

ϕ 0 ( x ) = 1 \phi_0(x)=1 ϕ0(x)=1,则上式可以化作
y ( x , w ) = ∑ j = 0 M − 1 w j ϕ j ( x ) = w T ϕ ( x ) y(\textbf{x},w)=\sum_{j=0}^{M-1}w_j\phi_j(x)=\textbf{w}^T\boldsymbol{\phi}(\mathbf{x}) y(x,w)=j=0M1wjϕj(x)=wTϕ(x)

Basic function
  • ϕ j = x j \phi_{j}=x_{j} ϕj=xj

  • ϕ j = exp ⁡ { − ( x − μ j ) 2 2 s 2 } \phi_{j}=\exp\{-\frac{(x-\mu_j)^2}{2s^2}\} ϕj=exp{2s2(xμj)2}

  • ϕ j ( x ) = σ ( x − μ j s ) \phi_j(x)=\sigma(\frac{x-\mu_{j}}{s}) ϕj(x)=σ(sxμj)

  • t a n h = 2 σ ( a ) − 1 tanh=2\sigma(a)-1 tanh=2σ(a)1

最大似然和最小二乘

正常来说最大似然法是参数估计的方法,但是可以通过假设模型有一个高斯噪声,来用最大似然求解xx问题。

目标变量 t t t,确定性函数 y ( x , w ) y(\mathbf{x},w) y(x,w),高斯噪声 ϵ \epsilon ϵ
t = y ( x , w ) + ϵ t=y(\mathbf{x},w)+\epsilon t=y(x,w)+ϵ
p ( t ∣ X , w , β ) = ∏ i = 1 N N ( t n ∣ w T ϕ ( x n ) , β − 1 ) p(\mathbf{t}|X,w,\beta)=\prod_{i=1}^N\mathcal{N}(t_n|w^T\phi(x_n),\beta^{-1}) p(tX,w,β)=i=1NN(tnwTϕ(xn),β1)
l n ( t ∣ w , β ) = ∑ n = 1 N l n N ( t n ∣ w T ϕ ( x n ) , β − 1 ) = N 2 l n β − N 2 l n ( 2 π ) − β E D ( w ) E D = 1 2 ∑ n = 1 N ( t n − w T ϕ ( x n ) ) 2 ln(\mathbf{t}|w,\beta)=\sum_{n=1}^N ln\mathcal{N}(t_n|w^T\phi(x_n),\beta^{-1})\\ =\frac{N}{2}ln\beta-\frac{N}{2}ln(2\pi)-\beta E_D(w)\\ E_D=\frac{1}{2}\sum_{n=1}^N(t_n-w^T\phi(x_n))^2 ln(tw,β)=n=1NlnN(tnwTϕ(xn),β1)=2Nlnβ2Nln(2π)βED(w)ED=21n=1N(tnwTϕ(xn))2
∇ w l n ( t ∣ w , β ) = 0 w M L = ( Φ T Φ ) − 1 Φ T t Φ = [ ϕ 0 ( x 1 ) ϕ 1 ( x 1 ) ⋯ ϕ M − 1 ( x 1 ) ⋯ ⋯ ⋯ ⋯ ϕ 0 ( x N ) ϕ 1 ( x N ) ⋯ ϕ M − 1 ( x N ) ] \nabla_w ln(\mathbf{t}|w,\beta)=0\\ w_{ML}=(\Phi^T\Phi)^{-1}\Phi^Tt\\ \Phi=\begin{bmatrix} \phi_{0}(x_{1})&\phi_{1}(x_{1})&\cdots&\phi_{M-1}(x_{1})\\ \cdots&\cdots&\cdots&\cdots\\ \phi_{0}(x_{N})&\phi_{1}(x_{N})&\cdots&\phi_{M-1}(x_{N}) \end{bmatrix} wln(tw,β)=0wML=(ΦTΦ)1ΦTtΦ=ϕ0(x1)ϕ0(xN)ϕ1(x1)ϕ1(xN)ϕM1(x1)ϕM1(xN)
所以可以看出使用最大似然法求解w的方法和使用最小二乘法求解的方法是等价的

Sequential learning

使用最大似然法求出的参数 w w w是使用全部数据计算而出的,对于较大的数据集其计算量是不可接受的。所以可以分批利用数据集,此方法s称作sequential learning
他有一个更有名的名字:随机梯度下降
w τ + 1 = w τ − η ∇ E n w^{\tau+1}=w^{\tau}-\eta\nabla E_n wτ+1=wτηEn

正则化最小二乘

为了避免过拟合,我们在损失函数中加入正则化项
E D ( w ) + λ E W ( w ) E_D(w)+\lambda E_W(w) ED(w)+λEW(w)
λ \lambda λ为正则化系数
常见的正则化函数
E W ( w ) = 1 2 w T w E_W(w)=\frac{1}{2}w^Tw EW(w)=21wTw
可以解得有正则化下 w w w的解
w = ( λ I + Φ T Φ ) − 1 Φ T t w=(\lambda I+\Phi^T\Phi)^{-1}\Phi^T t w=(λI+ΦTΦ)1ΦTt

从约束问题理解正则化
m i n   E D s . t .   E W ≤ η min\ E_{D}\\ s.t.\ E_W\le \eta min EDs.t. EWη
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值