回归补充(一)

回归补充(一)

一.如何用极大似然的原理来推最小二乘法

我们知道,在线性回归回归当中,尽管你得出了一个线性回归函数,能够尽可能的和给出的训练数据相拟合。但是这个现行回归函数得出来的值,和实际值还是有一个误差的。因此,实际值我们就可以用下面这个公式表示,其中ε (i)表示误差。

公式一
(公式1)

值得一提的是,着当中的误差ε (i) (1≤i≤m)是独立同分布的,服从均值为0,方差为某定值σ^2 的高斯分布(也叫正态分布)。这个规律往往随着数据量的增大而越发的明显,哪怕这些独立同分布的数据本身并不一定服从正态分布。基于这个现象,人们经过不断的论证,最后通过中心极限定理很好的解释了这个现象。

既然这里的ε (i)在体量足够大的时候服从正态分布,那么,它的表达式如下:

在这里插入图片描述

我们把上面这个算式当中的ε (i)用公式1给替换一下,那么就得到了下面这个算式:
在这里插入图片描述

那么它关于theta的最大似然估计是多少呢?在大学本科学过概率论的小伙伴应该清楚当中的套路。为了方便计算,我们首先求它的对数L(θ)。

计算过程如下:
在这里插入图片描述
在这里插入图片描述

如何让上述算式的值最大呢?即:如何才能得到最大似然估计值呢?我们分析一下最后这个式子。这当中,m, π,σ2都是已知的,其中σ2 为正态分布的方差。如果要让这个式子取最大值,那么减号之后的那部分只要尽可能的小,整个式子就会尽可能的大。我再σ^2 排除掉,剩下的部分就是最小二乘法的式子:

在这里插入图片描述

(公式二)

二. 线性回归中,权重θ的推导

在稍早前介绍线性回归的时候,我们知道了一个公式:

在这里插入图片描述

这个公式其实是可以通过梯度下降的方法求出来的。

我们在上边已经推出来了最小二乘法的公式,我们依靠的就是这个最小二乘法公式,我们看公式二,当中的h(xi)其实就是最开始提及的误差值ε (i),只不过是换了一个表达式,显得更加正式。

我们发现最小二乘法公式其实是一个个平方项的加和,学过线性代数的同学应该了解,平方项是可以用矩阵乘法的方式去表示的,如下:

在这里插入图片描述

这个式子,我们对θ求偏导,即可知道J(θ)下降速度最快的方向:
在这里插入图片描述

上述式子倒数第一行求驻点,经过移项,就可以得到所求公式。

注意:上一个式子的倒数第二行,运用到了矩阵的求导公式。如何求,可以参考这个链接:
矩阵求导,集中重要的矩阵及常用的矩阵求导公

上面这个式子主要用到了这几个公式:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

不过,上述公式的推导是基于一个前提条件:X(T)X是可逆的,万一遇到不可逆的情况呢?答案是:加上一个“扰动值”,不光在不可逆的时候,过拟合的时候也可以使用这个方法:
在这里插入图片描述

其中λ为扰动值,I为单位矩阵。加入扰动值之后又是怎么一个结果呢?

首先,尽管,X(T)*X有可能不是可逆的,但它一定是半正定的,理由如下:
在这里插入图片描述

因此,如果λ大于0,那么新构建的矩阵一定是正定的:进而保证了可逆

三.两种正则化

正则化的英文名:regularization。字面理解就是规则化,这个字面意思就很好的形容了正则化的含义:所谓的规则化,就是指要加一些规矩,避免你做出一些出格的事情。而在过拟合当中,你也一定要对线性回归函数加一些限制,使他不要过度适应。因此,所谓的正则化,就是一种对对象进行限制以满足某一特定目的的处理方法。我们的方法是:在损失函数后面加上一个正则项,如果用一句话来概括加上正则项的目的,就是:防止过拟合。

3.1 L1正则化

即,后面加上权值的绝对值乘以一个超参数,如下:
在这里插入图片描述

经过L1正则化之后,我们就得到了另一个回归方程:Lasso回归

3.2 L2正则化

如果我们在损失函数的基础上,加上平方和损失,就是所谓的L2正则化,它的算式如下:

在这里插入图片描述

经过L2正则化之后,我们就得到了另一个回归方程:Ridge(岭)回归

3.3 Elastic Net

这个其实是Lasso回归和岭回归的一个折中,因为无论是L1还是L2回归都有一些难以处理的事情。不过在讨论这个事情之前,我们得知道一个概念:稀疏解。

所谓的稀疏解,其实是人们的一个愿望。线性回归有常数项,一次项,二次项……n次项,我们希望这些项的前方尽可能不要有太多的非0系数,因为非0系数太多,往往代表过拟合。

因此,为了防止过拟合,我们应当让我们的模型能够适当的稀疏化。

因此,对于h = w(T)*X,我们自然希望w当中的0能够多一些

首先,我们看Lasso回归的后半部分,加了绝对值,而且是一次项,那么我们简单的想一想初中的东西,y=|x|的图像是什么样子呢?相信很多人都知道,是一个菱形的形状。在机器学习当中,我们绝大多数情况都会使用梯度下降法去处理问题。我们先看一张图:
在这里插入图片描述

图中这一圈又一圈代表目标函数J(w),当w1,和w2都减小的时候,这个目标函数也就越小,那么,在随着目标函数沿着梯度方向逐渐减小的过程中,总会取到黑点的部分,而那个点,至少w1=0,也就是说,我们的w当中是可以取到0的。

通过这个简单的例子,我们直观体会到了Lasso的一个特点:更容易获得稀疏解。

但是岭回归则不然:
我们知道,岭回归后面的式子是平方项,如果用二维来举例子,那就是一个圆,如图所示:

在这里插入图片描述

可见,当取到式子后半部分的边界的时候,w1和w2都不是0,所以,岭回归并不容易得到稀疏解。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值