回归分析_能否根据回归结果判断回归是否有偏?-CSDN博客

线性回归

线性回归使用最佳的拟合直线（也就是回归线）建立因变量 (Y) 和一个或多个自变量 (X) 之间的联系。用一个等式来表示它，即：
Y=a+b*X + e

其中a 表示截距，b 表示直线的倾斜率，e 是误差项。这个等式可以根据给定的单个或多个预测变量来预测目标变量的值。

一元回归直线
一元线性回归和多元线性回归的区别在于，多元线性回归有一个以上的自变量，而一元线性回归通常只有一个自变量。

线性回归要点：
1）自变量与因变量之间必须有线性关系；
2）多元回归存在多重共线性，自相关性和异方差性；
3）线性回归对异常值非常敏感。它会严重影响回归线，最终影响预测值；
4）多重共线性会增加系数估计值的方差，使得估计值对于模型的轻微变化异常敏感，结果就是系数估计值不稳定；
5）在存在多个自变量的情况下，我们可以使用向前选择法，向后剔除法和逐步筛选法来选择最重要的自变量。

如何选择回归模型

当只了解一两种回归技术的时候，情况往往会比较简单。然而，当我们在应对问题时可供选择的方法越多，选择正确的那一个就越难。类似的情况下也发生在回归模型中。

掌握多种回归模型时，基于自变量和因变量的类型、数据的维数以及数据的其它基本特征去选择最合适的技术非常重要。以下是要选择正确的回归模型时需要考虑的主要因素：

1）数据探索是构建预测模型的不可或缺的部分。在选择合适的模型前，比如识别变量的关系和影响，应该首先执行这一步骤。
2）比较不同模型的拟合优点，我们可以分析不同的指标参数，如统计意义的参数，R-square，调整 R-square，AIC，BIC以及误差项，另一个是 Mallows’ Cp 准则。这个主要是通过将所选的模型与所有可能的子模型（或仔细挑选的一组模型）进行对比，检查可能出现的偏差。
3）交叉验证是评估预测模型最好的方法。使用该方法，需将数据集分成两份（一份用于训练，一份用于验证）。使用观测值和预测值之间的均方差即可快速衡量预测精度。
4）如果数据集中存在是多个混合变量，那就不应选择自动模型选择方法，因为我们并不愿意将所有变量同时放在同一个模型中。
5）所选择的回归技术也取决于你的目的。可能会出现这样的情况，一个不太强大的模型与具有高度统计学意义的模型相比，更易于实现。
6）回归正则化方法（套索，岭和ElasticNet）在高维数据和数据集变量之间存在多重共线性的情况下运行良好。

诊断回归分析结果

为了理解、解释、预测某个问题，我们会进行回归分析。但事实上，选择一组优质的自变量并不是那么容易。通常我们会根据一些常识、理论基础、某些研究、专家的意见、参考文献等等选择一组自变量，来进行自变量的筛选。因此，我们需要诊断回归分析的质量——回归分析的结果诊断。

1.自变量与因变量是否具有预期的关系

每个自变量都会有一个系数，系数具有+/-号，来表示自变量与因变量的关系。从工具的得到的报告中，我们看到的系数的正负，每个自变量应该是我们期望的关系。如果有非常不符合逻辑的系数，我们就应该考虑剔除它了。

当然，有时也可能得到与常识不同的结论。举个例子，假如我们在研究森林火灾，我们通常认为降雨充沛的区域火灾的发生率会相对较低，也就是所谓的负相关，但是，这片森林火灾频发的原因可能是闪电雷击，这样降雨量这个自变量可能就不是常识中的负相关的关系了。

因此，我们除了验证自变量的系数与先验知识是否相符外，还有继续结合其他项检查继续诊断，从而得出更可靠的结论。

2.自变量对模型是否有帮助

自变量对模型有无帮助说的就是自变量是否有显著性。那如何了解这些自变量是否有显著性呢？

如果自变量的系数为零（或非常接近零），我们认为这个自变量对模型没有帮助，统计检验就用来计算系数为零的概率。如果统计检验返回一个小概率值（p值），则表示系数为零的概率很小。如果概率小于0.05，汇总报告上概率（Probability）旁边的一个星号（*）表示相关自变量对模型非常重要。换句话说，其系数在95%置信度上具有统计显著性。

利用空间数据在研究区域内建模的关系存在差异是非常常见的，这些关系的特征就是不稳定。我们就需要通过稳健概率（robust probability）了解一个自变量是否具有统计显著性。

3.残差是否有空间聚类

残差在空间上应该是随机分布的，而不应该出现聚类。这项检查我们可以使用空间自相关工具（Spatial Autocorrelation Tool）工具进行检查。

4.模型是否出现了倾向性

我们常说，不要戴着“有色眼镜”看人。同样，回归分析模型中，也不要带有“成见”，不能具有倾向性，否则，这不是个客观合理的模型。
我们都知道正态分布是个极好的分布模式，如果我们正确的构建了回归分析模型，那么模型的残差会符合完美的正态分布，其图形为钟形曲线。
当模型出现偏差时，可能我们看到的图形也是诡异的，这样我们就无法完全信任所预测的结果。

5.自变量中是否存在冗余

在我们建模的过程中，应尽量去选择表示各个不同方面的自变量，也就是尽量避免传达相同或相似信息的自变量。要清楚，引入了冗余变量的模型是不足以信任的。
6.评估模型的性能

最后需要做的是，评估模型的性能。矫R2值是评估自变量对因变量建模的重要度量。

这项检查应该放到最后。一旦我们通过了前面的所有检验，接下来就可以进行评估矫正R2值。

R2值的范围介于0和1之间，以百分比形式表示。假设正在为犯罪率建模，并找到一个通过之前所有五项检查的模型，其校正 R2 值为0.65。这样就可以了解到模型中的自变量说明犯罪率是65%。在有些科学领域，能够解释复杂现象的 23% 就会让人兴奋不已。在其他领域，一个R2值可能需要更靠近80%或90%才能引起别人的注意。不管采用哪一种方式，校正R2值都会帮我们判断自己模型的性能。

另一项辅助评估模型性能的重要诊断是修正的Akaike信息准则/Akaike’sinformation criterion (AIC)。AIC值是用于比较多个模型的一项有用度量。例如，可能希望尝试用几组不同的自变量为学生的分数建模。在一个模型中仅使用人口统计变量，而在另一个模型选择有关学校和教室的变量，如每位学生的支出和师生比。只要所有进行比较的模型的因变量（在本示例中为学生测试分数）相同，我们就可以使用来自每个模型的 AIC值确定哪一个的表现更好。模型的AIC值越小，越适合观测的数据。