七种你应该知道的回归方法

作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai


介绍

线性回归和逻辑回归是我们经常用来做预测模型的利器。由于他们的受欢迎成都,很多股票量化交易员甚至认为他们就是唯一的回归形式,或者一些分析师会认为这两个回归是所有回归中最重要的。

事实上,在数学世界中有回归方程有无数多的形式。每种形式都有其自身的重要性和最适合应用的特定场景。在本文中,我们以最简单的方式解释最常用的七种回归的形式。通过这篇文章,希望大家能形成回归广度的概念,而不是仅仅对遇到的每个问题都马上去应用回归。

什么是回归分析?

回归分析时预测建模技术的一种形式,它研究目标值和自变量之间的关系。这个技术用于寻找各种变量之间的因果关系。例如,我们可以通过回归分析来很好的研究股票价格波动跟各种股票特征之间的关系。

回归分析是建模和分析数据的重要工具。在这里,我们将曲线拟合到数据点,使得数据点距离曲线的距离之间的总差异最小。在下面的章节中我们会更加详细解释这一点。

为什么我们要使用回归分析?

正如上面所说的,回归分析估计的是两个或者多个变量之间的关系,让我们通过一个简单的例子来理解这一点:

比如说,你想根据当前的经济状况来估算公司的销售增长率。你发现公司销售增长为全国经济增长的5倍。所以我们可以利用这种洞察力,来根据当前和过去的信息预测公司的未来销售情况。

使用回归分析有非常多的好处。比如:

  • 它表明因变量和自变量之间的显著关系;
  • 它表明多个自变量对因变量的影响强度;

回归分析还允许我们比较不同尺度上变量的影响,例如价格变化的影响和促销活动的数量。这些优势有助于股票市场研究人员消除和评估用于构建预测模型的最佳变量集合。

我们有多少种回归技术?

有各种各样的回归技术可以用来进行预测分析。所有的回归技术都是由三部分组成的:自变量,因变量和回归线的走势。我们将在下面的部分来详细讨论他们。如果你觉得使用上述参数的组合可以得到更好的回归线,那么这就属于创造性的工作了。接下来,我们分析一些常规的回归算法。

1. 线性回归

它是最广为人知的回归建模技术之一。线性回归通常是人们在学习预测建模问题是最早选择的技术,在该技术中,因变量是连续的,自变量可以是连续的或者离散的,并且回归线的本质是一个线性的。

线性回归使用最佳拟合直线(也称为回归线)在因变量(Y)和一个或者多个自变量(X)之间建立关系。

线性回归用等式 Y = a + b ∗ X + e Y=a+b*X+e Y=a+bX+e 来表示,其中 a 是截距,b 是斜率,e 是误差项。该等式可用于基于给定的自变量来预测一些目标值。

在这里插入图片描述

简单线性回归和多元线性回归之间的区别在于,多元线性回归具有大于1个独立变量,而简单线性胡桂只有1个独立变量。现在,我们的问题转变成了“如何获得最佳拟合线?”。

这项任务我们可以通过最下二乘法来轻松完成。它是用于拟合回归线的最常用方法。它通过最小化从每个数据点到线的垂直偏差的平方和来计算观测数据的最佳拟合线。因为偏差是差值的平方,所以正数跟负数之间是不会有抵消的。

m i n w ∣ ∣ X w − y ∣ ∣ 2 2 min_{w}||Xw-y||_{2}^{2} minwXwy22

在这里插入图片描述

我们可以使用 R平方来评估模型性能。

重点:

  • 独立变量和因变量之间必须存在线性关系;
  • 多元回归遭受多重共线性,自相关和异方差性;
  • 线性回归对异常值非常敏感。它可以极大的影响回归线最终的预测值;
  • 多重共线性可以增加系数估计的方差,并使估计对模型中的微小变化非常敏感。结果是系数估计不稳定;
  • 在多个独立变量的情况下,我们可以通过一定的算法来选择最合适的自变量;
2. 逻辑回归

逻辑回归用于查找事件概率等于成功或者失败的概率。当因变量本质上是二进制时,我们应该使用逻辑回归。这里 Y 的值的范围从 0 到 1,它可以用下面的等式表示:

odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk

上面的程序,p 是存在感兴趣特征的概率。你应该在这里问的一个问题是:为什么我们要在等式中使用对数?

由于我们在这里使用二项分布(因变量),我们需要选择最适合此分布的连接函数。而且,它是逻辑功能。在上面的等式中,选择参数以最大化观察样本值的可能性,而不是最小化平方误差的总和。

在这里插入图片描述

重点:

  • 逻辑回归被广泛的用于分类问题;
  • 逻辑回归不需要依赖因变量和自变量之间的线性关系。它可以处理各种类型的关系,因为它将非线性对数变换应用于预测的优势比;
  • 为避免过度拟合和欠拟合,我们应该包括所有重要变量。确保这种做法的一个好方法是使用逐步方法来估计逻辑回归;
  • 它需要大样本,因为在样本量较小时,最大似然估计的效率低于普通最小二乘法;
  • 独立变量不应相互关联,即不具有多重共线性。但是,我们可以选择在分析和模型中包含分类变量的交互效应。
  • 如果因变量的值是序数,那么它被称为序数逻辑回归;
  • 如果因变量是多类的,那么它被称为多项逻辑回归;
3. 多项式回归

如果自变量的幂大于 1,则回归方程是多项式回归方程。下面的等式表示多项式方程:

y = a + b ∗ x 2 y=a+b*x^2 y=a+bx2

在这种回归技术中,最佳拟合线不是直线。它是一条适合数据点的曲线。

在这里插入图片描述

重点:

  • 虽然可能存在拟合更高次多项式以获得更低误差的诱惑,但这可能导致过度拟合。我们在拟合中始终需要绘制关系以查看拟合,并专注于确保曲线符合问题的本质。以下是一些绘制的图片:

在这里插入图片描述

  • 特别注意到最终的曲线,看看这些形状和趋势是否有意义。更高的多项式会出现更加过拟合的现象。
4. 逐步回归

当我们处理多个自变量时,会使用这种形式的回归。在这种技术中,自变量的选择是在自动过程的帮助下完成的,该过程不涉及人为干预。

通过观察 R-square,t-stats和AIC metric 等统计值来识别重要变量,可以实现这一壮举。逐步回归基本上适合回归模型,通过基于指定标准一次一个的添加或者删除协变量。下面列出了一些最常用的逐步回归方法:

  • 标准逐步分析做两件事。它根据每个步骤的需要添加和删除预测变量。
  • 正向选择从模型中最重要的预测变量开始,并为每个步骤添加变量。
  • 反向消除从模型中的所有预测变量开始,并删除每个步骤的最不重要的变量。

该建模技术的目的是以减少自变量来最大化预测能力的,它是处理数据集更高纬度的方法之一。

5. Ridge 回归(岭回归)

岭回归是当数据遭受多重共线性(独立变量高度相关)时使用的技术。在多重共线性中,即使最小二乘估计(OLS)是无偏的,他们的方差也是很大的,这使得观测值偏离真实值。通过在回归估计中增加一定程度的偏差,岭回归可以减少标准误差。

上面,我看到了线性回归的等式,它可以表示为:

y = a + b x y=a+bx y=a+bx

这个等式也是有误差项的,它的完整形式为:

y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]

=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.

在线性方程中,预测误差可以分解为两个子分量。首先是由于偏差,第二是由于方差。由于这两个或者两个组件中的任何一个,可能发生预测错误。在这里,我们将讨论由于方差引起的错误。

岭回归通过加入收缩参数 λ \lambda λ 解决了多重共线问题。看下面的等式:

在这里插入图片描述

在这个等式中,我们有两个组成部分。第一个是最小二乘项,另一个是 β 2 \beta^{2} β2 总和的 λ \lambda λ 倍数,其中 β \beta β 是系数。这被添加到最小平方项,以便缩小参数以具有非常低的方差。

重点:

  • 该回归的假设与最小二乘回归相同,但不假设正态性
  • 它会缩小系数的值,但不会达到零,这表明没有特征选择功能;
  • 这是一种正则化方法,L2正则化
6. Lasso 回归

类似于岭回归,Lasso回归也会对胡桂系数的绝对大小进行惩罚。此外,它还能够降低线性回归模型的可变性并提高其准确性。请看下面的等式:

在这里插入图片描述

Lasso回归与岭回归的不同之处在于它在惩罚函数中使用绝对值而不是平方值。这导致一些参数估计精确的位零。应用的惩罚越大,估计值就会缩小到绝对零度。这导致给定 n 个变量的选择。

重点:

  • 该回归的假设与最小二乘回归相同,但不假设正太性;
  • 它将系数缩小到零,这肯定有助于特征选择;
  • 这是一种正则化方法,L1正则化
  • 如果预测变量组高度相关,则 Lasso 回归仅选取其中一个并将其他预测变为零。
7. 弹性网络回归(ElasticNet Regression)

ElasticNet 是Lasso和Ridge回归技术的混合体。在作为正则化器之前,它使用 L1 和 L2 进行训练。当存在多个相关的特征时,弹性网络是非常有用的。Lasso 很有可能随机选择其中的一种,而弹性网络很可能同时选择其中之一。

在这里插入图片描述

在 Lasso 和 Ridge之间进行权衡的一个实际优势是,它允许 ElasticNet在一定条件下集成 Ridge 的一些稳定性。

重点:

  • 在高度相关的变量的情况下,它鼓励群体效应;
  • 所选变量的数量没有限制
  • 他会收到双重收缩的影响

来源:https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/

  • 3
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Adaboost回归是一种集成学习算法,用于解决回归问题。它的基本思想是通过串行训练多个弱回归模型,并根据它们的表现来调整每个模型的权重,从而得到一个强的回归模型。 在Adaboost回归中,首先初始化训练集中每个样本的权重。然后,通过多次迭代,每次迭代选择权重最高的样本,训练一个弱回归模型,并计算该模型的误差。在每次迭代中,被错误预测的样本的权重会被增加,而被正确预测的样本的权重会被减小。接下来,根据每个弱回归模型的误差率来计算对应模型的权重,并将其用于最终的强回归模型。 Adaboost回归的优点在于它能够处理复杂的非线性回归任务,并且对异常值有一定的鲁棒性。由于弱回归模型的串行训练,Adaboost回归在每次迭代中都会调整样本的权重,使得模型对于错误样本的关注度变高,从而提高了回归模型的准确性。 然而,Adaboost回归也存在一些缺点。首先,它对于噪声较大的数据集比较敏感。其次,它的训练过程耗时较长,因为每次迭代都需要重新调整样本的权重和训练模型。此外,Adaboost回归在处理多标签回归问题时可能性能不佳。 总结来说,Adaboost回归是一种集成学习算法,通过串行训练多个弱回归模型,并根据它们的表现来调整每个模型的权重,得到一个强的回归模型。它在处理复杂非线性回归任务时表现优秀,但对于噪声较大的数据集敏感,并且训练过程较耗时。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值