机器学习中回归技术的类型概括-CSDN博客

本文链接：https://blog.csdn.net/benny_zhou2004/article/details/139653870

序言

当输出变量是实数或连续值（如“薪水”或“体重”）时，就会出现回归问题。可以使用许多不同的模型，最简单的是线性回归。它试图用通过点的最佳超平面来拟合数据。

什么是回归分析？

回归分析是用于估计因变量或标准变量与一个或多个自变量或预测变量之间的关系的统计过程。当我们处理具有连续数据形式的目标变量的数据集时，通常使用回归分析。回归分析解释了关于选择预测因子变化的标准的变化。准则的条件期望基于预测因子，其中当自变量改变时，给出因变量的平均值。回归分析的三个主要用途是确定预测因子的强度、预测效应和趋势预测。

使用回归分析的目的是什么？

有些时候，我们想要分析不同的独立特征对目标的影响，或者我们所说的依赖特征。这有助于我们做出能够在期望的方向上影响目标变量的决策。回归分析主要基于统计学并因此给出相当可靠的结果，因此仅使用回归模型来寻找自变量和因变量或目标变量之间的线性和非线性关系。

回归技术的类型

随着机器学习领域的发展，回归分析技术得到了普及，并从y=mx+c发展到了多种多样。有几种类型的回归技术，每种适用于不同类型的数据和不同类型的关系。回归技术的主要类型有：

线性回归（Linear Regression）
多项式回归（Polynomial Regression）
逐步回归（Stepwise Regression）
决策树回归（Decision Tree Regression）
随机森林回归（Random Forest Regression）
支持向量回归（Support Vector Regression）
岭回归（Ridge Regression）
套索回归（LASSO Regression）
弹性网络回归（ElasticNet Regression）
贝叶斯线性回归（Bayesian Linear Regression）

线性回归（Linear Regression）

线性回归用于预测分析。线性回归是对标准或标量响应与多个预测变量或解释变量之间的关系进行建模的线性方法。线性回归集中于给定预测因子的值的响应的条件概率分布。对于线性回归，存在以下危险过拟合。这是回归分析的最基本形式，用于对单个因变量与一个或多个自变量之间的线性关系进行建模。

多项式回归（Polynomial Regression）

这是线性回归的扩展，用于对因变量和自变量之间的非线性关系进行建模。在这里，语法也保持不变，但现在在输入变量中，我们也包括一些已经存在的特征的一些多项式或更高次项。线性回归只能将线性模型拟合到手头的数据中，但具有多项式特征，我们可以很容易地拟合目标和输入特征之间的一些非线性关系。

逐步回归（Stepwise Regression）

逐步回归用于用预测模型拟合回归模型。它是自动执行的。在每一步中，从解释变量组中添加或减去变量。逐步回归的方法有向前选择（forward selection）、向后淘汰（backward elimination）和双向淘汰（bidirectional elimination）。

决策树回归（Decision Tree Regression）

决策树是用于分类和预测的最强大和最流行的工具。决策树是一个类似流程图的树形结构，其中每个内部节点表示对属性的测试，每个分支表示测试的结果，每个叶节点（终端节点）保存一个类标签。有一种非参数方法用于对决策树进行建模，以预测连续结果。

随机森林回归（Random Forest Regression）

随机森林是一个合奏一种能够使用多个决策树执行回归和分类任务的技术，以及一种称为自举和聚合的技术，通常称为装袋。这背后的基本思想是在确定最终输出时组合多个决策树，而不是依赖于单个决策树。随机森林具有多个决策树作为基础学习模型。我们从数据集中随机执行行采样和特征采样，形成每个模型的样本数据集。这部分称为引导程序。

支持向量回归（Support Vector Regression, SVR）

支持向量回归（SVR）是一种支持向量机（SVM）用于回归任务的。它试图找到一个函数，该函数能够最好地预测给定输入值的连续输出值。

SVR可以使用线性和非线性核函数。线性核是两个输入向量之间的简单点积，而非线性核是更复杂的函数，可以捕获数据中更复杂的模式。内核的选择取决于数据的特性和任务的复杂性。

岭回归（Ridge Regression）

岭回归是一种分析多元回归数据的技术。当出现多重共线性时，最小二乘估计是无偏的。这是一个正则化的线性回归模型，它试图通过在代价函数中加入惩罚项来降低模型的复杂度。一定程度的偏差被添加到回归估计中，结果，岭回归减少了标准误差。

套索回归（LASSO Regression）

套索回归是一种回归分析方法，它同时执行变量选择和正规化.套索回归使用软阈值。套索回归仅选择所提供的协变量的子集用于最终模型。这是另一种正则化的线性回归模型，它通过在代价函数中增加一个惩罚项来工作，但它倾向于将一些特征的系数归零，这使得它对特征选择很有用。

弹性网络回归（ElasticNet Regression）

线性回归存在过拟合问题，不能处理共线数据。当数据集中有许多特征，甚至其中一些特征与预测模型不相关时。这使得模型更加复杂，对测试集的预测过于不准确（或过度拟合）。这种具有高方差的模型不能在新数据上推广。因此，为了处理这些问题，我们引入了L-2和L-1范数正则化，以同时获得Ridge和Lasso的优点。所得到的模型具有比Lasso更好的预测能力。它执行特征选择并且还使假设更简单。