Deep Learning之线性模型

Linear Regression-线性回归

一元线性回归

一元线性回归,即一元线性函数f(x)=wx+b的拟合问题。
使用的求解方法——最小二乘法,即最小化均方误差。

关于均方误差,即残差平方的均值
∑ n = 1 N e n 2 = ∑ n = 1 N ( y n − w x n − b ) 2 \sum^N_{n=1}{e_n^2} = \sum^N_{n=1}{(y_n-wx_n-b)}^2 n=1Nen2=n=1N(ynwxnb)2
则最小二乘法,即是求一组拟合参数w和b,使得均方误差最小,即
( w ∗ , b ∗ ) = a r g min ⁡ w , b ∑ i = 1 N ( y i − w x i − b ) 2 (w^*,b^*) = arg\min_{w,b}\sum^N_{i=1}{(y_i-wx_i-b)}^2 (w,b)=argw,bmini=1N(yiwxib)2
至于最小二乘法的求解方法,即w*,b*的求法,我们使得 E ( w , b ) = ∑ i = 1 N ( y i − w x i − b ) 2 E(w,b) = \sum^N_{i=1}{(y_i-wx_i-b)}^2 E(w,b)=i=1N(yiwxib)2对w与b的偏导均为0即可,如下所示
∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 N x i 2 − ∑ i = 1 N ( y i − b ) x i ) = 0 \frac{\partial E(w,b)}{\partial w} = 2(w\sum^N_{i=1}x_i^2-\sum^N_{i=1}{(y_i-b)x_i} )= 0 wE(w,b)=2(wi=1Nxi2i=1N(yib)xi)=0
∂ E ( w , b ) ∂ b = 2 ( N b − ∑ i = 1 N ( y i − w x i ) ) = 0 \frac{\partial E(w,b)}{\partial b} = 2(Nb-\sum^N_{i=1}{(y_i-wx_i)})= 0 bE(w,b)=2(Nbi=1N(yiwxi))=0
解以上两式,可得闭式解 w ∗ = ∑ i = 1 N x i y i − n x ˉ y ˉ ∑ i = 1 N x i 2 − n x 2 w^*= \frac{\sum^N_{i=1}{x_iy_i}-n\bar{x}\bar{y}}{\sum^N_{i=1}x_i^2-nx^2} w=i=1Nxi2nx2i=1Nxiyinxˉyˉ
b ∗ = y ˉ − w ∗ x ˉ b^* = \bar{y}-w^*\bar{x} b=yˉwxˉ

多元线性回归

使得w = [w1,w2,……,wD, b],则多元最小二乘法变为
w ∗ = a r g min ⁡ w ∣ ∣ y-Xw ∣ ∣ 2 2 \textbf{w}^* = arg\min_w||\textbf{y-Xw}||^2_2 w=argwminy-Xw22
E(w)=||y-Xw||22=(y-Xw)T(y-Xw)
求解最小二乘法 ∂ E ( w ) ∂ w = − 2 X T ( y − X w ) = 2 X T X w − 2 X T y = 0 \frac{\partial E(w)}{\partial w} = -2X^T(y-Xw)= 2X^TXw-2X^Ty= 0 wE(w)=2XT(yXw)=2XTXw2XTy=0
解得w*= (XTX)-1XTy
注:此答案的前提是XTX可逆
当我们对原问题加入正则化和岭回归后,原式化为
w*= (XTX+lambda I)-1XTy

一个拓展——对数线性回归

对于所预测的函数值y与x呈指数关系时,可将y对数化后,再进行线性回归
在这里插入图片描述
y = e ( w T x + b ) y = e^{(w^Tx+b)} y=e(wTx+b)
lny = wTx+b
即y‘=g(y)=wTx ,在本情况中g(·)即为ln(·)
即y= g-1(wTx)

Logisitic Regression-逻辑斯蒂回归

叫做逻辑斯蒂回归,其实是一个用于分类的分类器

原先的线性回归,最终y=wx+b得到的是任意的一个预测值,而当我们想要将其转化为分类问题时,对于最简单的二分类问题,即是将结果映射为0和1两个标签值的过程,显然我们需要在线性回归后再添加一步分类的操作。

我们最初想到的分类器,应该是类似于符号函数这种
y = { 0 z < 0 0.5 z = 0 1 z > 0 y=\begin{cases} 0 & z < 0 \\ 0.5 & z = 0 \\ 1 & z>0 \end{cases} y=00.51z<0z=0z>0
但,不连续即不能保证可微的严格性,在深度学习上是硬伤。因此我们需要找到一个具有类似功能的函数。

于是我们找到了对数几率函数
y = 1 1 + e − z y= \frac{1}{1+e^{-z}} y=1+ez1
它具有单调可微与任意阶可导的性质,并且能够将函数值压缩到(0,1)之间,正是我们需要的
注意到,我们使得z=wTx,则能够得到y=1/exp(-z)能够类似地表示事件发生,即正类的概率,1-y则表示负类的概率
于是有
l n y 1 − y = w T x = l n p ( y = 1 , x ; w ) p ( y = 0 , x ; w ) = l n p ( y = 1 ∣ x ; w ) p ( x ) p ( y = 0 ∣ x ; w ) p ( x ) = l n p ( y = 1 ∣ x ; w ) p ( y = 0 ∣ x ; w ) ln\frac{y}{1-y} = w^Tx=ln\frac{p(y=1,x;w)}{p(y=0,x;w)}=ln\frac{p(y=1|x;w)p(x)}{p(y=0|x;w)p(x)}= ln\frac{p(y=1|x;w)}{p(y=0|x;w)} ln1yy=wTx=lnp(y=0,x;w)p(y=1,x;w)=lnp(y=0x;w)p(x)p(y=1x;w)p(x)=lnp(y=0x;w)p(y=1x;w)
值得一提的是,在多分类问题中,我们常将x替换为x1,x2……xN等,我们常常对其使用极大似然估计

正则化

对于我们的目标函数,例如线性回归问题的均方误差,常由两部分组成,分别为数据项和正则化项
O ( x ) = D ( x ) + λ R ( x ) O(x)= D(x)+\lambda R(x) O(x)=D(x)+λR(x)
关于数据项D(x),即针对于分类or回归的目标,使得分类尽可能正确or回归的误差尽可能小
关于lambda,是调节两项权重分配的一个常数
关于正则化项R(x),即对参数(解)空间的一些限制,以体现对问题的一些要求or约束,同时可以控制模型的复杂度,看做一种函数的先验。当我们对较为稀疏的数据进行处理时,常常使用一范数


关于最小均方误差的问题,我们常对其使用岭回归
min ⁡ x 1 / 2 ∣ ∣ y − A x ∣ ∣ 2 2 + λ ∣ ∣ x ∣ ∣ 2 2 \min_x1/2||y-Ax||^2_2+\lambda||x||^2_2 xmin1/2yAx22+λx22

类别不平衡问题

关于类别不平衡的问题,即正负(各类)样本分布不均的情况。
有过采样和降采样两种解决问题的方法
以二分类问题为例,当正例数目过少,我们可以通过过采样的方法,来增加正例样本的数目。具体手段有,样本复制、样本插值、样本生成
当负例数目过多,我们可以通过降采样的方法,来减少负例样本的比例,具体手段比如集成学习(中的自助法取样)

另外,从损失函数的角度来说,可以使用加权损失函数的方法。在一般的损失函数中,我们常将所有样本赋以相同的权重1/N
在这里插入图片描述

在加权损失函数中,我们按正常损失函数的权重,分别计算正例/负例的损失函数,并乘以负例/正例在所有样本中所占的比例。之所以对正负例的占比作交换,是为了平衡类别数不均,对损失函数所造成的影响
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖虎干嘛了

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值