回归分析

线性回归

线性回归使用最佳的拟合直线(也就是回归线)建立因变量 (Y) 和一个或多个自变量 (X) 之间的联系。用一个等式来表示它,即:
Y=a+b*X + e

其中a 表示截距,b 表示直线的倾斜率,e 是误差项。这个等式可以根据给定的单个或多个预测变量来预测目标变量的值。

一元回归直线
一元线性回归和多元线性回归的区别在于,多元线性回归有一个以上的自变量,而一元线性回归通常只有一个自变量。

线性回归要点:
1)自变量与因变量之间必须有线性关系;
2)多元回归存在多重共线性,自相关性和异方差性;
3)线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值;
4) 多重共线性会增加系数估计值的方差,使得估计值对于模型的轻微变化异常敏感,结果就是系数估计值不稳定;
5)在存在多个自变量的情况下,我们可以使用向前选择法,向后剔除法和逐步筛选法来选择最重要的自变量。

如何选择回归模型

当只了解一两种回归技术的时候,情况往往会比较简单。然而,当我们在应对问题时可供选择的方法越多,选择正确的那一个就越难。类似的情况下也发生在回归模型中。

掌握多种回归模型时,基于自变量和因变量的类型、数据的维数以及数据的其它基本特征去选择最合适的技术非常重要。以下是要选择正确的回归模型时需要考虑的主要因素:

1)数据探索是构建预测模型的不可或缺的部分。在选择合适的模型前,比如识别变量的关系和影响,应该首先执行这一步骤。
2)比较不同模型的拟合优点,我们可以分析不同的指标参数,如统计意义的参数,R-square,调整 R-square,AIC,BIC以及误差项,另一个是 Mallows’ Cp 准则。这个主要是通过将所选的模型与所有可能的子模型(或仔细挑选的一组模型)进行对比,检查可能出现的偏差。
3)交叉验证是评估预测模型最好的方法。使用该方法,需将数据集分成两份(一份用于训练,一份用于验证)。使用观测值和预测值之间的均方差即可快速衡量预测精度。
4)如果数据集中存在是多个混合变量,那就不应选择自动模型选择方法,因为我们并不愿意将所有变量同时放在同一个模型中。
5)所选择的回归技术也取决于你的目的。可能会出现这样的情况,一个不太强大的模型与具有高度统计学意义的模型相比,更易于实现。
6) 回归正则化方法(套索,岭和ElasticNet)在高维数据和数据集变量之间存在多重共线性的情况下运行良好。

诊断回归分析结果

为了理解、解释、预测某个问题,我们会进行回归分析。但事实上,选择一组优质的自变量并不是那么容易。通常我们会根据一些常识、理论基础、某些研究、专家的意见、参考文献等等选择一组自变量,来进行自变量的筛选。因此,我们需要诊断回归分析的质量——回归分析的结果诊断。

1.自变量与因变量是否具有预期的关系

每个自变量都会有一个系数,系数具有+/-号,来表示自变量与因变量的关系。从工具的得到的报告中,我们看到的系数的正负,每个自变量应该是我们期望的关系。如果有非常不符合逻辑的系数,我们就应该考虑剔除它了。

当然,有时也可能得到与常识不同的结论。举个例子,假如我们在研究森林火灾,我们通常认为降雨充沛的区域火灾的发生率会相对较低,也就是所谓的负相关,但是,这片森林火灾频发的原因可能是闪电雷击,这样降雨量这个自变量可能就不是常识中的负相关的关系了。

因此,我们除了验证自变量的系数与先验知识是否相符外,还有继续结合其他项检查继续诊断,从而得出更可靠的结论。

2.自变量对模型是否有帮助

自变量对模型有无帮助说的就是自变量是否有显著性。那如何了解这些自变量是否有显著性呢?

如果自变量的系数为零(或非常接近零),我们认为这个自变量对模型没有帮助,统计检验就用来计算系数为零的概率。如果统计检验返回一个小概率值(p值),则表示系数为零的概率很小。如果概率小于0.05,汇总报告上概率(Probability) 旁边的一个 星号(*) 表示相关自变量对模型非常重要。换句话说,其系数在95%置信度上具有统计显著性。

利用空间数据在研究区域内建模的关系存在差异是非常常见的,这些关系的特征就是不稳定。我们就需要通过 稳健概率(robust probability) 了解一个自变量是否具有统计显著性。

3.残差是否有空间聚类

残差在空间上应该是随机分布的,而不应该出现聚类。这项检查我们可以使用 空间自相关工具(Spatial Autocorrelation Tool)工具进行检查。

4.模型是否出现了倾向性

我们常说,不要戴着“有色眼镜”看人。同样,回归分析模型中,也不要带有“成见”,不能具有倾向性,否则,这不是个客观合理的模型。
我们都知道正态分布是个极好的分布模式,如果我们正确的构建了回归分析模型,那么模型的残差会符合完美的正态分布,其图形为钟形曲线。
当模型出现偏差时,可能我们看到的图形也是诡异的,这样我们就无法完全信任所预测的结果。

5.自变量中是否存在冗余

在我们建模的过程中,应尽量去选择表示各个不同方面的自变量,也就是尽量避免传达相同或相似信息的自变量。要清楚,引入了冗余变量的模型是不足以信任的。
6.评估模型的性能

最后需要做的是,评估模型的性能。 矫R2值是评估自变量对因变量建模的重要度量。

这项检查应该放到最后。一旦我们通过了前面的所有检验,接下来就可以进行评估矫正R2值。

R2值的范围介于0和1之间,以百分比形式表示。假设正在为犯罪率建模,并找到一个通过之前所有五项检查的模型,其校正 R2 值为0.65。这样就可以了解到模型中的自变量说明犯罪率是65%。在有些科学领域,能够解释复杂现象的 23% 就会让人兴奋不已。在其他领域,一个R2值可能需要更靠近80%或90%才能引起别人的注意。不管采用哪一种方式,校正R2值都会帮我们判断自己模型的性能。

另一项辅助评估模型性能的重要诊断是修正的Akaike信息准则/Akaike’sinformation criterion (AIC)。AIC值是用于比较多个模型的一项有用度量。例如,可能希望尝试用几组不同的自变量为学生的分数建模。在一个模型中仅使用人口统计变量,而在另一个模型选择有关学校和教室的变量,如每位学生的支出和师生比。只要所有进行比较的模型的因变量(在本示例中为学生测试分数)相同,我们就可以使用来自每个模型的 AIC值确定哪一个的表现更好。模型的AIC值越小,越适合观测的数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值