我梳理了一下,整理成下表给大家参考,也比较好记忆,回归之前六条,回归之后六条:
检查回归方程的有效性 | ||
回归分析之前 | 1 | 对y进行正态分布的检验,如果y不服从正态分布,则需要进行变换。 |
2 | 通过相关性分析,判断x与y的相关性,如果不相关,则不需要纳入此x到方程中。 | |
3 | 通过相关性分析,判断x与x之间的相关性,相关的x不能出现在同一个方程中。 | |
4 | 通过散点图,观察是否是直线关系。如果非直线相关,则进行变换。 | |
5 | 通过箱线图识别x或y的离群点,这些离群点的发生是小概率事件,没有代表性应该删除。 | |
6 | 通过散点图,识别趋势的离群点,这些离群点显著影响了总体趋势,可以删除,并非必须,具体情况具体分析。 | |
回归分析之后 | 7 | F检验:确保整体方程有效。P<=0.05说明模型中至少有一个X对Y有显著的影响关系。 |
8 | t检验:确保每个系数都有效。P<=0.05说明这个x对y有显著性影响关系。 | |
9 | 残差分析:残差独立,残差服从正态分布,残差均值为0,等方差。 | |
10 | R-sq代表y的波动有多少比例能被x的波动描述。当x个数较多时,调整后的R-sq比R更为准确,调整后R-sq>=0.5拟和效果较好, 有实际使用价值。否则,没有实际使用价值,预测区间太宽。 | |
11 | 离群点识别:有个别值对整个方程的趋势有显著影响,可以修正。这是对上边第6条的补充。 | |
12 | 多重共线性检测:如果方差膨胀因子VIF>5,则认为存在多重共线性。这是对上边第3条的补充。 |