回归

回归

首先理解回归与分类的区别:回归的y值是针对连续值的,而分类中的y值则为离散值。
下面介绍几种重要的回归

线性回归

通常回归可以写成这样的形式(两个变量): hθ(x)=θ0+θ1x1+θ2x2 h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2
而对于多变量的情况,则可以写成向量形式: hθ(x)=i=0mθixi=θTx h θ ( x ) = ∑ i = 0 m θ i x i = θ T x
对于回归,我们最常用的方法是最小二乘,下面通过极大似然估计来解释最小二乘。
对于回归函数: y(i)=θTx(i)+ε(i) y ( i ) = θ T x ( i ) + ε ( i )
我们假设误差 ε(i)(1im) ε ( i ) ( 1 ≤ i ≤ m ) 是独立同分布的,且服从均值为0,方差为 σ2 σ 2 的高斯分布。
所以有: p(ε(i))=12πσexp((ε(i))22σ2) p ( ε ( i ) ) = 1 2 π σ exp ⁡ ( − ( ε ( i ) ) 2 2 σ 2 )
p(y(i)x(i);θ)=12πσexp((y(i)θTx(i))22σ2) p ( y ( i ) | x ( i ) ; θ ) = 1 2 π σ exp ⁡ ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 )
L(θ)=i=1mp(y(i)x(i);θ) L ( θ ) = ∏ i = 1 m p ( y ( i ) | x ( i ) ; θ ) ,即: L(θ)=i=1m12πσexp((y(i)θTx(i))22σ2) L ( θ ) = ∏ i = 1 m 1 2 π σ exp ⁡ ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 )
对数似然函数为:
对数似然函数
目标函数为: J(θ)=12i=1m(y(i)θTx(i))2 J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2
下面求解 θ θ :
目标函数: J(θ)=12i=1m(y(i)θTx(i))2=12(Xθy)T(Xθy) J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 = 1 2 ( X θ − y ) T ( X θ − y )
其中M个N维样本组成矩阵X:
–X的每一行对应一个样本,一共有M个样本
–X的每一列对应一个特征,一共有N个特征,还有一维常数项,全为1.
计算梯度:
梯度
参数的解析式: θ=(XTX)1XTy θ = ( X T X ) − 1 X T y
XTX X T X 不可逆或者为了防止过拟合,需要增加 λ λ 扰动: θ=(XTX+λI)1XTy θ = ( X T X + λ I ) − 1 X T y
说明: XTX X T X 是半正定的,则对于 XTX+λI X T X + λ I 一定是正定的,从而 XTX+λI X T X + λ I 可逆,则参数一定有解。
线性回归的正则项(防止过拟合):
目标函数为: J(θ)=12i=1m(y(i)θTx(i))2 J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2
L1-正则项: J(θ)=12i=1m(y(i)θTx(i))2+λj=1n|θj| J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 + λ ∑ j = 1 n | θ j |
L2-正则项: J(θ)=12i=1m(y(i)θTx(i))2+λj=1nθ2j J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 + λ ∑ j = 1 n θ j 2
Elastic Net:这里写图片描述
说明:对于线性回归,L1正则化就相当于岭回归,L2正则化就相当于岭回归。

logistic回归

Logistic/Sigmoid函数
这里写图片描述
hθ(x)=g(θTx)=11+eθTx h θ ( x ) = g ( θ T x ) = 1 1 + e − θ T x
g(x)=(11+ex)=ex(1+ex)2 g ′ ( x ) = ( 1 1 + e − x ) ′ = e − x ( 1 + e − x ) 2 , g(x)=11+exex1+ex=11+ex(111+ex)=g(x)(1g(x)) g ′ ( x ) = 1 1 + e − x ∙ e − x 1 + e − x = 1 1 + e − x ∙ ( 1 − 1 1 + e − x ) = g ( x ) ( 1 − g ( x ) )
Logistic回归参数估计
假设: P(y=1|x;θ)=hθ(x) P ( y = 1 | x ; θ ) = h θ ( x ) ; P(y=0|x;θ)=1hθ(x) P ( y = 0 | x ; θ ) = 1 − h θ ( x )
p(y|x;θ)=(hθ(x))y(1hθ(x))1y p ( y | x ; θ ) = ( h θ ( x ) ) y ( 1 − h θ ( x ) ) 1 − y
似然函数:
这里写图片描述
对数似然:
这里写图片描述
对数线性模型
一个事件的几率odds,是指该事件发生的概率与不发生的概率的比值。
对数几率:logit函数
P(y=1|x;θ)=hθ(x) P ( y = 1 | x ; θ ) = h θ ( x )
P(y=0|x;θ)=1hθ(x) P ( y = 0 | x ; θ ) = 1 − h θ ( x )
这里写图片描述
Logistic回归的损失函数 yi{0,1} y i ∈ { 0 , 1 }
这里写图片描述
这里写图片描述
Logistic回归的损失函数 yi{1,1} y i ∈ { − 1 , 1 }
这里写图片描述
这里写图片描述

广义线性模型GLM

y不再只是高斯分布,而是扩大为指数族中的任意分布;
变量 xg(x)y x → g ( x ) → y ,连接函数g单调可导。
如线性回归中 g(z)=z g ( z ) = z ;logistic回归中 g(z)=11+ez g ( z ) = 1 1 + e − z

Softmax回归

K分类,第k类的参数为 θ⃗ k θ → k ,组成二维矩阵 θk×n θ k × n
概率: p(c=k|x;θ)=exp(θTkx)l=1Kexp(θTlx),k=1,2,K p ( c = k | x ; θ ) = exp ⁡ ( θ k T x ) ∑ l = 1 K exp ⁡ ( θ l T x ) , k = 1 , 2 ⋯ , K
似然函数:
这里写图片描述
对数似然:
这里写图片描述
随机梯度: J(θ)θk=(ykp(yk|x;θ))x ∂ J ( θ ) ∂ θ k = ( y k − p ( y k | x ; θ ) ) x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值