机器学习中回归技术的类型概括

序言

当输出变量是实数或连续值(如“薪水”或“体重”)时,就会出现回归问题。可以使用许多不同的模型,最简单的是线性回归。它试图用通过点的最佳超平面来拟合数据。

什么是回归分析?

回归分析是用于估计因变量或标准变量与一个或多个自变量或预测变量之间的关系的统计过程。当我们处理具有连续数据形式的目标变量的数据集时,通常使用回归分析。回归分析解释了关于选择预测因子变化的标准的变化。准则的条件期望基于预测因子,其中当自变量改变时,给出因变量的平均值。回归分析的三个主要用途是确定预测因子的强度、预测效应和趋势预测。

使用回归分析的目的是什么?

有些时候,我们想要分析不同的独立特征对目标的影响,或者我们所说的依赖特征。这有助于我们做出能够在期望的方向上影响目标变量的决策。回归分析主要基于统计学并因此给出相当可靠的结果,因此仅使用回归模型来寻找自变量和因变量或目标变量之间的线性和非线性关系。

回归技术的类型

随着机器学习领域的发展,回归分析技术得到了普及,并从y=mx+c发展到了多种多样。有几种类型的回归技术,每种适用于不同类型的数据和不同类型的关系。回归技术的主要类型有:

  • 线性回归(Linear Regression)

  • 多项式回归(Polynomial Regression)

  • 逐步回归(Stepwise Regression)

  • 决策树回归(Decision Tree Regression)

  • 随机森林回归(Random Forest Regression)

  • 支持向量回归(Support Vector Regression)

  • 岭回归(Ridge Regression)

  • 套索回归(LASSO Regression)

  • 弹性网络回归(ElasticNet Regression)

  • 贝叶斯线性回归(Bayesian Linear Regression)

线性回归(Linear Regression)

线性回归用于预测分析。线性回归是对标准或标量响应与多个预测变量或解释变量之间的关系进行建模的线性方法。线性回归集中于给定预测因子的值的响应的条件概率分布。对于线性回归,存在以下危险过拟合。这是回归分析的最基本形式,用于对单个因变量与一个或多个自变量之间的线性关系进行建模。

多项式回归(Polynomial Regression)

这是线性回归的扩展,用于对因变量和自变量之间的非线性关系进行建模。在这里,语法也保持不变,但现在在输入变量中,我们也包括一些已经存在的特征的一些多项式或更高次项。线性回归只能将线性模型拟合到手头的数据中,但具有多项式特征,我们可以很容易地拟合目标和输入特征之间的一些非线性关系。

逐步回归(Stepwise Regression)

逐步回归用于用预测模型拟合回归模型。它是自动执行的。在每一步中,从解释变量组中添加或减去变量。逐步回归的方法有向前选择(forward selection)、向后淘汰(backward elimination)和双向淘汰(bidirectional elimination)

决策树回归(Decision Tree Regression)

决策树是用于分类和预测的最强大和最流行的工具。决策树是一个类似流程图的树形结构,其中每个内部节点表示对属性的测试,每个分支表示测试的结果,每个叶节点(终端节点)保存一个类标签。有一种非参数方法用于对决策树进行建模,以预测连续结果。

随机森林回归(Random Forest Regression)

随机森林是一个合奏一种能够使用多个决策树执行回归和分类任务的技术,以及一种称为自举和聚合的技术,通常称为装袋。这背后的基本思想是在确定最终输出时组合多个决策树,而不是依赖于单个决策树。随机森林具有多个决策树作为基础学习模型。我们从数据集中随机执行行采样和特征采样,形成每个模型的样本数据集。这部分称为引导程序。

支持向量回归(Support Vector Regression, SVR)

支持向量回归(SVR)是一种支持向量机(SVM)用于回归任务的。它试图找到一个函数,该函数能够最好地预测给定输入值的连续输出值。

SVR可以使用线性和非线性核函数。线性核是两个输入向量之间的简单点积,而非线性核是更复杂的函数,可以捕获数据中更复杂的模式。内核的选择取决于数据的特性和任务的复杂性。

岭回归(Ridge Regression)

岭回归是一种分析多元回归数据的技术。当出现多重共线性时,最小二乘估计是无偏的。这是一个正则化的线性回归模型,它试图通过在代价函数中加入惩罚项来降低模型的复杂度。一定程度的偏差被添加到回归估计中,结果,岭回归减少了标准误差。

套索回归(LASSO Regression)

套索回归是一种回归分析方法,它同时执行变量选择和正规化.套索回归使用软阈值。套索回归仅选择所提供的协变量的子集用于最终模型。这是另一种正则化的线性回归模型,它通过在代价函数中增加一个惩罚项来工作,但它倾向于将一些特征的系数归零,这使得它对特征选择很有用。

弹性网络回归(ElasticNet Regression)

线性回归存在过拟合问题,不能处理共线数据。当数据集中有许多特征,甚至其中一些特征与预测模型不相关时。这使得模型更加复杂,对测试集的预测过于不准确(或过度拟合)。这种具有高方差的模型不能在新数据上推广。因此,为了处理这些问题,我们引入了L-2和L-1范数正则化,以同时获得Ridge和Lasso的优点。所得到的模型具有比Lasso更好的预测能力。它执行特征选择并且还使假设更简单。

贝叶斯线性回归(Bayesian Linear Regression)

顾名思义,此算法完全基于贝叶斯定理。由于这个原因,只有我们不使用最小二乘法来确定回归模型的系数。因此,这里用于寻找模型权重和参数的技术依赖于特征的后验分布,这为基于该技术的回归模型提供了额外的稳定性因素。

常见问题(FAQ)

1. 回归的两种主要类型是什么?

两种主要的回归类型是线性回归和逻辑回归。线性回归用于预测连续数值结果,而逻辑回归用于预测二元分类结果(例如,是或否、通过或失败)。

2. 回归中的两种变量是什么?

回归分析中的两类变量是自变量和因变量。自变量是回归模型的输入,而因变量是模型试图预测的输出。

3. 回归为什么叫回归?

“回归”一词是由弗朗西斯·高尔顿爵士在19世纪末创造的。他用这个词来描述孩子的身高倾向于向人口均值回归的现象,意思是身高高于平均水平的父母往往会生出接近平均身高的孩子,而身高低于平均水平的父母往往会生出接近平均身高的孩子。

4. 如何计算回归?

有许多不同的方法来计算回归,但最常见的方法是梯度下降。梯度下降是一种迭代算法,它在使因变量的预测值和实际值之间的误差最小的方向上更新回归模型的参数。

5. 为什么要使用回归?

回归是理解和预测变量之间关系的有力工具。它应用广泛,包括金融、经济、市场营销和医学。

  • 17
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

绎岚科技

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值