【机器学习】5种回归方法及其属性

最新推荐文章于 2024-07-24 11:37:51 发布

ChenVast

最新推荐文章于 2024-07-24 11:37:51 发布

阅读量5.7k

点赞数 2

分类专栏： Machine Learning 机器学习算法理论与实战文章标签：回归方法机器学习

机器学习算法理论与实战同时被 2 个专栏收录

156 篇文章 27 订阅

订阅专栏

Machine Learning

132 篇文章 28 订阅

订阅专栏

线性和逻辑回归通常是人们为机器学习和数据科学学习的第一个建模算法。两者都很棒，因为它们易于使用和解释。然而，它们固有的简单性也有一些缺点，在许多情况下它们并不是回归模型的最佳选择。实际上有几种不同类型的回归，每种都有自己的优点和缺点。

在这篇文章中，我们将讨论7种最常见的回归算法及其属性。我们很快就会发现，他们中的许多人都偏向于在某些类型的情况下以及某些类型的数据中运作良好。最后，他的帖子将在您的回归工具框中为您提供更多工具，并让您更全面地了解回归模型！

线性回归

回归是一种用于建模和分析变量之间关系的技术，通常是它们如何贡献并且与一起产生特定结果相关。线性回归指的是完全由线性变量组成的回归模型。从简单的情况开始，单变量线性回归是一种用于使用线性模型（即线）来模拟单个输入自变量（特征变量）和输出因变量之间的关系的技术。

更一般的情况是多变量线性回归，其中为多个独立输入变量（特征变量）和输出因变量之间的关系创建模型。模型保持线性，输出是输入变量的线性组合。我们可以建模多变量线性回归，如下所示：

Y = a_1 * X_1 + a_2 * X_2 + a_3 * X_3 ...... a_n * X_n + b

其中a_n是系数，X_n是变量，b是偏差。我们可以看到，此函数不包含任何非线性，因此仅适用于对线性可分离数据进行建模。这很容易理解，因为我们只是使用系数权重a_n来加权每个特征变量X_n的重要性。我们使用随机梯度下降（SGD）确定这些权重a_n和偏差b。请查看下面的插图，以获得更直观的图片！

关于线性回归的几个关键点：

建模快速简便，当要建模的关系不是非常复杂且没有大量数据时尤其有用。
非常直观地理解和解释。
线性回归对异常值非常敏感。

多项式回归

当我们想要创建一个适合处理非线性可分数据的模型时，我们需要使用多项式回归。在这种回归技术中，最佳拟合线不是直线。它是一条适合数据点的曲线。对于多项式回归，一些自变量的幂大于1.例如，我们可以有类似的东西：

Y = a_1 * X_1 +（a_2）²* X_2 +（a_3）⁴* X_3 ....... a_n * X_n + b

我们可以让一些变量具有指数，其他变量没有指数，并且还为每个变量选择我们想要的精确指数。但是，选择每个变量的精确指数自然需要了解数据如何与输出相关。请参阅下图，了解线性与多项式回归的直观比较。

线性与多项式回归，数据是非线性可分的

关于多项式回归的几个关键点：

能够建模非线性可分离数据; 线性回归不能做到这一点。它通常更灵活，可以建立一些相当复杂的关系。
完全控制特征变量的建模（指定要设置）。
需要仔细设计。需要一些数据知识才能选择最佳指数。
如果指数选择不当，容易过度拟合。

岭回归

在特征变量之间存在高共线性的情况下，标准线性或多项式回归将失败。共线性是独立变量之间存在近线性关系。高共线性的存在可以通过几种不同的方式确定：

即使理论上该变量应该与Y高度相关，回归系数也不显着。
添加或删除X特征变量时，回归系数会发生显着变化。
您的X特征变量具有高成对相关性（检查相关矩阵）。

我们首先可以看一下标准线性回归的优化函数，以获得有关岭回归如何帮助的一些见解：

min || Xw - y ||²

其中X代表特征变量，w代表权重，y代表基本事实。岭回归是一种补救措施，用于缓解模型中回归预测变量之间的共线性。共线性是这样一种现象，其中多元回归模型中的一个特征变量可以以相当高的准确度从其他特征变量线性预测。由于特征变量以这种方式如此相关，因此最终回归模型在其近似中是非常有限且刚性的，即它具有高方差。

为了缓解这个问题，Ridge Regression为变量添加了一个小的平方偏差因子：

min || Xw - y ||²+ z || w ||²

这样的平方偏差因子将特征变量系数拉离该刚度，在模型中引入少量偏差，但大大减小了方差。

关于岭回归的几个关键点：

该回归的假设与最小二乘回归相同，但不假设正态性。
它会缩小系数的值，但不会达到零，这表明没有特征选择功能

Lasso 回归

Lasso 回归与岭回归非常相似，因为两种技术都具有相同的前提。我们再次为回归优化函数添加一个偏置项，以减少共线性的影响，从而减小模型方差。然而，不是使用像岭回归那样的平方偏差，而是使用套索而不是使用绝对值偏差：

min || Xw - y ||²+ z || w ||

Ridge和Lasso回归之间存在一些差异，这些差异基本上可以回归到L2和L1正则化的属性差异：

内置特征选择：经常被提及为L1范数的有用属性，而L2范数则不然。这实际上是L1范数的结果，它倾向于产生稀疏系数。例如，假设模型有100个系数，但只有10个系数具有非零系数，这实际上是说“其他90个预测变量在预测目标值方面毫无用处”。L2范数产生非稀疏系数，因此不具有此属性。因此，可以说Lasso回归做了一种“参数选择”，因为未选择的特征变量的总权重为0。
稀疏性：指矩阵（或向量）中只有极少数条目为非零。L1范数具有产生许多具有零值的系数或具有很少大系数的非常小的值的特性。这与Lasso执行一种特征选择的前一点相关联。
计算效率：L1范数没有解析解，但L2范数确实如此。这允许在计算上有效地计算L2范数解。然而，L1范数解决方案确实具有稀疏性属性，允许它与稀疏算法一起使用，这使得计算在计算上更有效。