实习之回归分析

回归分析的概念

回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如操作人员不安全操作与安全事故数量之间的关系,最好的研究方法就是回归。
回归分析估计了两个或多个变量之间的关系,比如说我们要去估计一家公司营收额的情况,调查显示营收额的增长速度是本地经济增长的3倍。我们使用根据当前和过去的信息来预测未来公司的销售情况。
使用回归分析的好处如下:

  1. 它表明自变量和因变量之间的显著关系;
  2. 它表明多个自变量对一个因变量的影响程度。

回归分析可以衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间的联系,这些有助于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,来构建预测模型。

回归技术介绍

有多种的回归技术用于预测,这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。
在这里插入图片描述

Linear Regression 线性回归

线性回归通常是人们在学习预测模型时的首选技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线是线性的。我们用一个方程式来表示它即: ,其中 表示截距, 表示直线的斜率, 是误差项。这个方程可以根据给定的预测变量来预测目标变量的值。
一元线性回归和多元线性回归的区别在于,多元线性回归有( >1)个自变量,而一元线性回归通常只有1个自变量。这里获得最佳拟合线采用的是最小二乘法。对于观测数据,通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。
这里我们掌握的要点是:
·自变量与因变量之间必须有线性关系
·多元回归存在多重共线性,自相关性和异方差性
·线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值。
·多重线性会增加系数估计值的方差,使得在模型轻微变化下,估计非常灵敏
·在多个变量的情况下,我们可以使用向前法、向后剔除法、逐步筛选法来选择最重要的自变量。

Logistic Regression 逻辑回归

逻辑回归是用来计算“事件=success”和“事件=failure”的概率。当因变量的类型属于二元(1/0、真/假、是/否)变量时,我们就应该使用逻辑回归。这里逻辑回归主要用到二分类上,对于多分类问题采用的Softmacx回归。
这里我们要注意的是:
·它广泛的用于分类问题
·逻辑回归不要求自变量和因变量是线性关系,这里使用的激活函数是logistic函数。
·为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选法来估计逻辑回归。
·该逻辑回归需要大量的样本,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。
·自变量不应该相互关联的,即不具有多重共线性。在分析建模中,我们可以选择包含分类变量相互作用的影响。
·如果因变量的值是定序变量(定序变量是变量的一种,区别同一类别个案中等级次序的变量,定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有>与<的数学特质),则称它为序逻辑回归。
·如果因变量是多类的话,则称它为多元逻辑回归。

Polynomial Regression 多项回归

对一个回归方程,如果指数大于1,那么它就是多项式回归方程,例如下式: y = a + b x 2 y=a+bx^2 y=a+bx2 ,这种回归技术中最佳拟合线为拟合数据点的曲线。
多项式回归中我们会犯的一个错误就是产生过拟合,我们判断是否过拟合的情况就是画出关系图来查看拟合情况,通过画出拟合图来直观的展示效果。

Stepwise Regression 逐步回归

在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择时在一个自动二点过程中完成的,其中包括一些非人为操作。识别重要变量的方法:通过观察统计的值,如R-square、t-stats和AIC指标。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。逐步回归的方法如下所示:
·标准逐步回归法做两件事。即增加和删除每个步骤所需的预测。
·向前选择法从模型中最显著预测开始,然后为每一步添加变量。
·向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显著性的变量。
这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。

Ridge Regression 岭回归

岭回归是一种用于处理存在多重共线性(自变量高度相关的)数据的技术。在多重共线的情况下,尽管最小二乘法对每一个变量很公平,但是它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归上增加一个偏差度,来降低标准差。
在一个线性方程中,预测误差可以分解为2个自分量,一个是偏差,一个是方差。预测错误可能会由这两个分量或者这两者中的任何一个造成。这里主要讨论的是由方差所造成的有关误差。岭回归通过收缩参数 解决多重共线性问题。误差函数为:
L = arg min ⁡ β ∈ R P ∣ ∣ y − X β ∣ ∣ 2 2 ⏟ + l o s s ∣ ∣ β ∣ ∣ 2 2 ⏟ P e n a l t y L=\argmin_{\beta \in \mathbb{R}^P}\underset{loss} {\underbrace{||y-X\beta ||_{2}^{2}}+}\underset{Penalty}{\underbrace{||\beta ||_{2}^{2}}} L=βRPargminloss yXβ22+Penalty β22

Lasso Regression 套索回归

它类似于岭回归,Lasso(Least Absolute Shrinkage and Selection Operator)也会惩罚回归系数的绝对值大小。此外,它能够减少变化程度并提高线性回归的精度。 L = a r g min ⁡ ⏟ β ∈ R P ∣ ∣ y − X β ∣ ∣ 2 2 ⏟ L o s s + λ ∣ ∣ β ∣ ∣ ⏟ P e n a l t y L=\underset{\beta \in \mathbb{R}^P}{\underbrace{arg\min }}\underset{Loss}{\underbrace{||y-X\beta ||_{2}^{2}}}+\underset{Penalty}{\lambda \underbrace{||\beta ||}} L=βRP argminLoss yXβ22+Penaltyλ β
Lasso回归与Ridge回归有一点不同,它使用的惩罚函数是绝对值,而不是平法。这导致惩罚值使一些参数估计结果等于零。使用惩罚值越大,进一步估计会使得缩小值趋于零。这将导致我们要从给定n个变量中选择变量。
要点:
·除常数外,这种回归的假设与最小二乘回归类似;
·它收缩系数接近零(等于零),这确实有助于特征选择;
·这是一个正则化方法,使用的是L1正则化;
如果预测的一组变量高度相关的,Lasso会选出其中一个变量并且将其它的收缩为零。

ElasticNet 回归

ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵,当有多个相关的特征时,ElasticNet是很有用。Lasso会随机挑选他们其中的一个,而ElasticNet 则会选择两个。
β ^ = a r g min ⁡ β ( ∣ ∣ y − X β ∣ ∣ 2 ) + λ 2 ∣ ∣ β ∣ ∣ 2 + λ 1 ∣ ∣ β ∣ ∣ 1 \hat{\beta}=\underset{\beta}{arg\min}\left( ||y-X\beta ||^2 \right) +\lambda _2||\beta ||^2+\lambda _1||\beta ||_1 β^=βargmin(yXβ2)+λ2β2+λ1β1
Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。
要点:
·在高度相关变量的情况下,它会产生群体效应
·选择变量的数目没有限制
·它可以承受双重收缩。

如何正确的选择回归模型

在多类回归模型中,基于自变量和因变量的类型,数据的维数以及数据的其他基本特征的情况下,选择最合适的技术非常重要。我们选择回归模型需要注意的几个参考要素如下:
·数据探索是构建预测模型的必然组成部分。在哦选择合适的模型时,比如识别变量的关系和影响时,它应该时首选的一步。
·比较适合于不同模型的有点,我们可以分析不同的指标参数,比如统计意义上的参数、R-square、Adjusted R-square、AIC、BIC以及误差项,另一个是Mallows’s Cp准则。这个主要是通过将模型于所有可能的子模型进行对比,并检查在模型中可能出现的偏差。
·交叉验证时评估预测模型的最好方法。将数据集分为两份(一个训练、一个测试)。一般用预测值和真值之间的均方差来衡量预测的精度。
·数据集时多个变量的时候,我们不应该选择自动模型选择方法,因为同一个时间把所有变量放在同一个模型中可能不是我们想要的结果。
·选择模型的时候取决于我们的目的。有些时候会出现一个不太强大的模型于高度统计学意义上的模型相比,回归模型更容易实现。

参考:https://www.cnblogs.com/sumuncle/p/5647722.html

自变量选择方法之向前选择法

基本介绍

向前选择法是一种回归模型的自变量选择方法,其特点是把候选的自变量逐个引入回归方程,故称为向前法。
在实际问题中,选择合适的变量来建立回归方程,不是一件很容易的事情。因为影响变量 的因素很多,而这些因素之间存在多重共线性,特别是在教育和经济类数据中,各自变量之间有高度的相互依赖性,这样会给回归系数估计值带来不合理的解释。为了得到一个稳健的、可靠的回归模型,这就需要给出一种方法,使得能从众多的影响 的因素中筛选对因变量影响最大的自变量,在自变量和因变量观测数据基础上建立最优回归方程。
在向前选择法中,与因变量有最大正相关或最大负相关的变量首先进入回归方程,然后按照假设H:“进入回归方程的便量的系数为0”,对进入回归方程的变量的系数进行F-检验。为了决定变量(以及每一个后继变量)是否能进入回归方程,必须指定进入回归方程的判别标准。常用的标准有:①F值进入标准FIN:当F统计量(临界值,常指定为3.84)时,变量可能进入回归方程;②F概率进入标准PIN:当F统计量的相伴概率≤PIN(临界概率,常指定为0.05)时,变量才能进入回归方程。如果第一个被选变量满足F检验条件(即H被拒绝),则向前选择过程继续;否则,选择变量过程结束,回归方程中无任何变量。一旦有一个自变量进入回归方程,接着考察因变量与不在方程中的每个变量的偏相关系数,具有最大偏相关系数的变量是下一个候选者。如果满足F检验条件,则该变量进入回归方程,且重复上述选择过程。当没有变量满足F检验条件时,选择变量过程终止。此时所得到的回归方程为最优回归方程。

基本步骤

向前选择法是以不存在自变量的模型作为起点,然后逐步增加自变量并筛选自变量的过程。具体过程如下:

  1. 对 k个自变量分别拟合对因变量 的一元线性回归模型,即得到k 个一元线性回归模型,然后找出F统计量值最高的模型及对应的自变量,并将该自变量首先引入模型中。在此过程中,需要注意的是:如果所有模型的F统计量均未通过检验,说明所搜集的自变量与因变量之间均为不显著,说明模型构建不适合,应当考虑其他模型,本方法的运算过程也就终止。
  2. 在已经引入的模型上,分别引入剩余的k-1个自变量,分别得到k-1个二元线性回归模型,继而得到k-1个新的F统计量,并从中找出F统计量的值为最高的模型,此时,该模型中含有两个自变量,新增加的自变量即为经过筛选出来的应当引入模型的自变量。同样地,如果此过程中,没有F统计量通过检验,则运算终止。
  3. 按照第二步的筛选方法,不断引入新的自变量,直到引入的新的自变量,直到引入的新的自变量也不能使得残差平方和(SSE)显著减少为止(F统计量均为通过检验)。向前选择法就是这样一个不断引入新变量,进行F统计量检验的过程,由此可见,只要某个自变量增加到模型中,该自变量就一定会保留在模型中。
    参考:
    https://ency.chaoxing.com/mdetail/B3EF6376A3C79889161056E9D311D509
    在这里插入图片描述

自变量选择方法之向后选择法

基本介绍

从所有变量一次加入回归方程开始,然后按顺序提出对回归方程影响不显著的变量,这种筛选自变量的方法称为向后选择法,也称为向后剔除法,向后消元法。向后消元法是一种与向前选择法恰好相反的回归分析方法,它从模型中包含所有的备选自变量开始。一个备选自变量如果与因变量的偏相关系数是最小的,且其F值小于“剔出标准”,则被剔出模型。下一个被剔出模型变量是在剩余的自变量中偏相关系数最小,且其F值小于“剔出标准”的备选自变量。这种迭代过程一直进行下去,直到再也没有备选自变量符合“提出标准”为止。一旦一个变量被从模型中剔出,它就不能在下一步再重新进入模型。
向后消元法的SPSS操作要在Method:下拉选框中Backward(向后消法)选项,其余的操作与向前选择法基本相同。
剔出变量的的判别标准为;①F移出法标准FOUT:当F统计量值<FOUT(临界值,SPSS中内定此值为2.71)时,变量移除回归方程;②F最大概率移出标准FOUT:当F统计量的相伴概率>FOUT(临界值,SPSS中内定此值为0.1)时,变量从回归方程中移出。向后剔除法是从全部变量均在回归方程中开始,然后每次剔除一个F统计量的相伴概率最大且符合上述标准①或②的变量,直至留在方程中的变量再也没有达到剔除标准时为止。最后一个回归方程,即为最优方程。

基本过程

与向前选择法相反,其基本过程如下:

  1. 先对因变量拟合包括所有 个自变量的线性回归模型。然后考察 个去掉一个自变量的模型(这些模型中的每一个都有 个自变量),使模型的SSE值减少最少的自变量被挑选出来并从模型中剔除。
  2. 考察 个在去掉一个自变量的模型(这些模型中的每一个都有 个自变量),使模型的SSE值减少最少的自变量被挑选出来并从模型中剔除。如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减少为止。这时,模型中所生的自变量都是显著的。
    在这里插入图片描述

逐步回归法介绍

逐步回归的基本思想是通过剔出变量中不太重要又和其他变量高度相关的变量,降低多重共线性程度。将变量逐个引入一个解释变量后都要进行F检验,比昂对已经选入的解释变量逐个进行 检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除,以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量熊回归方程中剔除为止,以保证所得到的解释变量集是最优的。逐步回归法可能因为删除了重要的相关变量而导致设定偏差。

逐步型选元法

逐步回归法选择变量的过程包含两个基本步骤:一是从回归模型中剔出经检验不显著的变量,而是引入新变量到回归模型中,常用的逐步向前法和向后法。
步骤1:对p个回归自变量 X 1 、 X 2 、 X 3 , ⋅ ⋅ ⋅ , X P X_1\text{、}X_2\text{、}X_3,···,X_P X1X2X3,,XP分别同因变量Y建立一元回归模型 Y = β 0 + β i X i + ε , i = 1 , 2 , ⋅ ⋅ ⋅ , p Y=\beta _0+\beta _iX_i+\varepsilon ,i=1,2,···,p Y=β0+βiXi+ε,i=1,2,,p计算变量 X X X,以及相应的回归系数的F检验统计量的值,记为 F 1 ( 1 ) , ⋅ ⋅ ⋅ , F p ( 1 ) F_{1}^{\left( 1 \right)},···,F_{p}^{\left( 1 \right)} F1(1),,Fp(1),取其中的最大值 F i 1 ( 1 ) F_{i1}^{\left( 1 \right)} Fi1(1) ,即 F i 1 ( 1 ) = max ⁡ { F 1 ( 1 ) , ⋅ ⋅ ⋅ , F p ( 1 ) } F_{i1}^{\left( 1 \right)}=\max \left\{ F_{1}^{\left( 1 \right)},···,F_{p}^{\left( 1 \right)} \right\} Fi1(1)=max{F1(1),,Fp(1)},对给定的显著性水平 α \alpha α,记相应的临界值 F 1 , F i 1 ( 1 ) ≥ F 1 F^1\text{,}F_{i1}^{\left( 1 \right)}\ge F^1 F1Fi1(1)F1 ,则将 X i 1 X_{i1} Xi1引入回归模型,记 为选入变量指标集合。
步骤2:建立因变量 Y Y Y与自变量子集 { X i 1 , X 1 } , ⋅ ⋅ ⋅ , { X i 1 , X i 1 − 1 } , { X i 1 ‘ , X i 1 + 1 } , ⋅ ⋅ ⋅ , { X i 1 , X p } \left\{ X_{i1},X_1 \right\} ,···,\left\{ X_{i1},X_{i1-1} \right\} ,\left\{ X_{i1}^{‘},X_{i1+1} \right\} ,···,\left\{ X_{i1},X_p \right\} {Xi1,X1},,{Xi1,Xi11},{Xi1,Xi1+1},,{Xi1,Xp} 的二元回归模型(即此回归模型的回归元为二元的),共有 p − 1 p-1 p1个。计算变量的回归系数 F F F检验的统计量值,记为 F k ( 2 ) ( k ≠ I 1 ) F_{k}^{\left( 2 \right)}\left( k\ne I_1 \right) Fk(2)(k=I1),选其中最大者,记为 F i 2 ( 2 ) F_{i2}^{\left( 2 \right)} Fi2(2) ,对应自变量脚标记为 i i i F i 2 ( 2 ) = max ⁡ { F 1 ( 2 ) , ⋅ ⋅ ⋅ , F i 1 − 1 ( 2 ) , F i 1 + 1 ( 2 ) , ⋅ ⋅ ⋅ , F p ( 2 ) } F_{i2}^{\left( 2 \right)}=\max \left\{ F_{1}^{\left( 2 \right)},···,F_{i1-1}^{\left( 2 \right)},F_{i1+1}^{\left( 2 \right)},···,F_{p}^{\left( 2 \right)} \right\} Fi2(2)=max{F1(2),,Fi11(2),Fi1+1(2),,Fp(2)} 。对给定的显著性水平 α \alpha α ,记相应的临界值为 F 1 , F i 1 ( 2 ) ≥ F 2 F^1,F_{i1}^{\left( 2 \right)}\ge F^2 F1,Fi1(2)F2 ,则将变量 X i 2 X_{i2} Xi2引入回归模型。否则,终止变量引入过程。
步骤3:考虑因变量对变量子集 { X i 1 , X i 2 , ⋅ ⋅ ⋅ X p } \left\{ X_{i1},X_{i2},···X_p \right\} {Xi1,Xi2,Xp} 的回归重复步骤2。
依次方法重复进行,每次从未引入回归模型的自变量中选取一个,直到经检验没有变量引入为止。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值