回归补充（一）

最新推荐文章于 2021-11-09 09:50:11 发布

南方惆怅客

最新推荐文章于 2021-11-09 09:50:11 发布

阅读量417

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/johnny_love_1968/article/details/116276421

版权

回归补充（一）

文章目录

回归补充（一）

一.如何用极大似然的原理来推最小二乘法

我们知道，在线性回归回归当中，尽管你得出了一个线性回归函数，能够尽可能的和给出的训练数据相拟合。但是这个现行回归函数得出来的值，和实际值还是有一个误差的。因此，实际值我们就可以用下面这个公式表示，其中ε (i)表示误差。

公式一
（公式1）

值得一提的是，着当中的误差ε (i) (1≤i≤m)是独立同分布的,服从均值为0,方差为某定值σ^2 的高斯分布(也叫正态分布)。这个规律往往随着数据量的增大而越发的明显，哪怕这些独立同分布的数据本身并不一定服从正态分布。基于这个现象，人们经过不断的论证，最后通过中心极限定理很好的解释了这个现象。

既然这里的ε (i)在体量足够大的时候服从正态分布，那么，它的表达式如下：

在这里插入图片描述

我们把上面这个算式当中的ε (i)用公式1给替换一下，那么就得到了下面这个算式：
在这里插入图片描述

那么它关于theta的最大似然估计是多少呢？在大学本科学过概率论的小伙伴应该清楚当中的套路。为了方便计算，我们首先求它的对数L(θ)。

计算过程如下：
在这里插入图片描述

如何让上述算式的值最大呢？即：如何才能得到最大似然估计值呢？我们分析一下最后这个式子。这当中，m, π，σ^{2都是已知的，其中σ}2 为正态分布的方差。如果要让这个式子取最大值，那么减号之后的那部分只要尽可能的小，整个式子就会尽可能的大。我再σ^2 排除掉，剩下的部分就是最小二乘法的式子：

在这里插入图片描述

（公式二）

二. 线性回归中，权重θ的推导

在稍早前介绍线性回归的时候，我们知道了一个公式：

在这里插入图片描述

这个公式其实是可以通过梯度下降的方法求出来的。

我们在上边已经推出来了最小二乘法的公式，我们依靠的就是这个最小二乘法公式，我们看公式二，当中的h(xi)其实就是最开始提及的误差值ε (i)，只不过是换了一个表达式，显得更加正式。

我们发现最小二乘法公式其实是一个个平方项的加和，学过线性代数的同学应该了解，平方项是可以用矩阵乘法的方式去表示的，如下：

在这里插入图片描述

这个式子，我们对θ求偏导，即可知道J(θ)下降速度最快的方向：
在这里插入图片描述

上述式子倒数第一行求驻点，经过移项，就可以得到所求公式。

注意：上一个式子的倒数第二行，运用到了矩阵的求导公式。如何求，可以参考这个链接：
矩阵求导，集中重要的矩阵及常用的矩阵求导公

上面这个式子主要用到了这几个公式：
在这里插入图片描述

不过，上述公式的推导是基于一个前提条件：X(T)X是可逆的，万一遇到不可逆的情况呢？答案是：加上一个“扰动值”，不光在不可逆的时候，过拟合的时候也可以使用这个方法：
在这里插入图片描述

其中λ为扰动值，I为单位矩阵。加入扰动值之后又是怎么一个结果呢？

首先，尽管，X(T)*X有可能不是可逆的，但它一定是半正定的，理由如下：
在这里插入图片描述

因此，如果λ大于0，那么新构建的矩阵一定是正定的：进而保证了可逆

三.两种正则化

正则化的英文名：regularization。字面理解就是规则化，这个字面意思就很好的形容了正则化的含义：所谓的规则化，就是指要加一些规矩，避免你做出一些出格的事情。而在过拟合当中，你也一定要对线性回归函数加一些限制，使他不要过度适应。因此，所谓的正则化，就是一种对对象进行限制以满足某一特定目的的处理方法。我们的方法是：在损失函数后面加上一个正则项，如果用一句话来概括加上正则项的目的，就是：防止过拟合。

3.1 L1正则化

即，后面加上权值的绝对值乘以一个超参数，如下：
在这里插入图片描述

经过L1正则化之后，我们就得到了另一个回归方程：Lasso回归

3.2 L2正则化

如果我们在损失函数的基础上，加上平方和损失，就是所谓的L2正则化，它的算式如下：

在这里插入图片描述

经过L2正则化之后，我们就得到了另一个回归方程：Ridge（岭）回归

3.3 Elastic Net

这个其实是Lasso回归和岭回归的一个折中，因为无论是L1还是L2回归都有一些难以处理的事情。不过在讨论这个事情之前，我们得知道一个概念：稀疏解。

所谓的稀疏解，其实是人们的一个愿望。线性回归有常数项，一次项，二次项……n次项，我们希望这些项的前方尽可能不要有太多的非0系数，因为非0系数太多，往往代表过拟合。

因此，为了防止过拟合，我们应当让我们的模型能够适当的稀疏化。

因此，对于h = w(T)*X，我们自然希望w当中的0能够多一些

首先，我们看Lasso回归的后半部分，加了绝对值，而且是一次项，那么我们简单的想一想初中的东西，y=|x|的图像是什么样子呢？相信很多人都知道，是一个菱形的形状。在机器学习当中，我们绝大多数情况都会使用梯度下降法去处理问题。我们先看一张图：
在这里插入图片描述

图中这一圈又一圈代表目标函数J(w)，当w1，和w2都减小的时候，这个目标函数也就越小，那么，在随着目标函数沿着梯度方向逐渐减小的过程中，总会取到黑点的部分，而那个点，至少w1=0，也就是说，我们的w当中是可以取到0的。

通过这个简单的例子，我们直观体会到了Lasso的一个特点：更容易获得稀疏解。

但是岭回归则不然：
我们知道，岭回归后面的式子是平方项，如果用二维来举例子，那就是一个圆，如图所示：

在这里插入图片描述

可见，当取到式子后半部分的边界的时候，w1和w2都不是0，所以，岭回归并不容易得到稀疏解。

最低0.47元/天解锁文章

南方惆怅客

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
回归补充（一）

线性回归的一些补充一.如何用极大似然的原理来推最小二乘法我们知道，在线性回归回归当中，尽管你得出了一个线性回归函数，能够尽可能的和给出的训练数据相拟合。但是这个现行回归函数得出来的值，和实际值还是有一个误差的。因此，实际值我们就可以用下面这个公式表示，其中ε (i)表示误差。（公式1）值得一提的是，着当中的误差ε (i) (1≤i≤m)是独立同分布的,服从均值为0,方差为某定值σ^2 的高斯分布(也叫正态分布)。这个规律往往随着数据量的增大而越发的明显，哪怕这些独立同分布的数据本身并不一定服从正态
复制链接

扫一扫