平均工资数据分析之回归

链接: R语言实战——中国职工平均工资的变化分析——相关与回归分析

1、模型诊断和评估的方法

1. 残差分析

1、残差图 (Residual Plot):用于检查残差是否存在非随机模式。理想情况下,残差应随机分布在零附近
2、Q-Q 图 (Quantile-Quantile Plot):用于检查残差是否符合正态分布。如果残差接近正态分布,Q-Q 图上的点应接近一条直线
3、Shapiro-Wilk Test:用于检验残差的正态性。p 值大于 0.05 表示残差近似正态分布。

2. 多重共线性检测

方差膨胀因子 (VIF, Variance Inflation Factor):用于检测多重共线性。如果 VIF 值大于 10,说明存在严重的多重共线性问题。

3. 模型拟合优度

R² 和调整后的 R²:衡量模型解释变异的能力。调整后的 R² 考虑了自变量个数,对模型复杂度进行了惩罚。
AIC (Akaike 信息准则) 和 BIC (贝叶斯信息准则):用于模型比较,较低的 AIC 或 BIC 表示模型更好。

4. 异常值和影响点

标准化残差 (Standardized Residuals):用于识别异常值。绝对值大于 2 或 3 的残差可能是异常值。
Cook’s 距离 (Cook’s Distance):用于识别对模型有显著影响的数据点。Cook’s 距离大于 1 的点可能是影响点。

5. 异方差性检验

Breusch-Pagan Test:用于检测异方差性。如果 p 值小于 0.05,说明存在异方差性问题。
White Test:另一种异方差性检测方法。

6. 自相关性检验

Durbin-Watson Test:用于检测残差的自相关性。值接近 2 表示不存在自相关性,值接近 0 或 4 表示存在自相关性。

7. 预测性能评估

交叉验证 (Cross-Validation):将数据集分成训练集和测试集,评估模型在未见过的数据上的表现。
均方误差 (MSE, Mean Squared Error) 和 均方根误差 (RMSE, Root Mean Squared Error):用于衡量模型的预测误差。

2、指数回归(对数模型)——地区

由于指数模型的值会过于大,会出现以下警告

: RuntimeWarning: overflow encountered in exppredicted_values_exp = np.exp(predicted_values)

这个警告通常是由于指数函数中的值过大而引起的。当预测值非常大时,应用指数函数可能会导致数值溢出(overflow)

因此:使用对数函数:如果数据呈现指数型增长,可以考虑使用对数函数进行拟合和预测。这样可以将指数型增长的问题转化为线性回归问题

(1)构建对数模型并可视化

在这里插入图片描述
在这里插入图片描述

(2)模型诊断的评估

在这里插入图片描述

  1. Omnibus(Omnibus test of normality):
    这个统计量是对模型中误差项的正态性进行综合检验的统计量。正态性是线性回归模型的一个重要假设,即模型的残差应该近似服从正态分布。Omnibus统计量的p值提供了一个关于模型中误差项是否服从正态分布的检验结果。如果p值低于某个显著性水平(通常是0.05),则拒绝了误差项服从正态分布的假设。p值应该越大越好,因为大的p值表示误差项符合正态分布的假设越合理。
  2. Skewness(Skewness of residuals):
    偏度是衡量数据分布偏斜程度的统计量。在线性回归模型中,残差的偏度可以用来检验误差项是否符合正态分布。如果残差的偏度接近于0,则表示数据分布大致对称。如果偏度值大于0,则表示数据分布右偏,即正偏。如果偏度值小于0,则表示数据分布左偏,即负偏。通常认为,偏度的绝对值大于2时,数据分布具有显著的偏斜。偏度应该接近于0,因为接近于0表示数据分布大致对称,符合正态分布的特征。
  3. Kurtosis(Kurtosis of residuals):
    峰度是衡量数据分布峰态(峰的陡峭程度)的统计量。在线性回归模型中,残差的峰度可以用来检验误差项是否符合正态分布。如果残差的峰度接近于0,则表示数据分布具有正常的峰态。如果峰度值大于0,则表示数据分布具有尖峰,即峰态较高。如果峰度值小于0,则表示数据分布扁平,即峰态较低。与偏度类似,通常认为,峰度的绝对值大于2时,数据分布具有显著的峰态。峰度应该接近于0,因为接近于0表示数据分布的峰态与正态分布相似,没有明显的尖峰或扁平。
  4. Durbin-Watson statistic:
    杜宾-沃森统计量是用来检验残差是否存在自相关(序列相关)的统计量。自相关是指残差之间的相关性,如果残差之间存在自相关,意味着模型中的一些信息没有被完全捕捉到,可能导致模型的估计结果不准确。Durbin-Watson统计量的取值范围为0到4之间,如果接近于2,则表示残差之间不存在自相关;如果接近于0或4,则表示存在正向或负向自相关。通常认为,当Durbin-Watson统计量的值在1.5到2.5之间时,不存在严重的自相关问题。值接近于2,因为接近于2表示残差之间不存在自相关,即模型中没有未被捕捉到的序列相关性。

Q-Q图

在这里插入图片描述
在这里插入图片描述

残差图

在这里插入图片描述
在这里插入图片描述

3、多项式回归及检验——地区

(1)构建模型并可视化

在这里插入图片描述

(2)模型诊断评估

在这里插入图片描述
在这里插入图片描述

  1. Shapiro-Wilk Test
    W 值:Shapiro-Wilk Test 的统计量。这个值接近于1时,表示样本数据与正态分布相符。
    p 值:Shapiro-Wilk Test 的显著性水平。如果 p 值小于某个阈值(通常为 0.05),我们拒绝原假设,认为数据不服从正态分布。反之,如果 p 值大于 0.05,我们不能拒绝原假设,认为数据服从正态分布。
    作用和意义
    Shapiro-Wilk Test 的主要作用是检验数据正态性,这在统计分析中非常重要,因为许多统计方法(如 t 检验、回归分析)假设数据是正态分布的。如果数据不符合正态分布,这些方法的结果可能不可靠。
    残差正态性:在回归分析中,残差应该近似正态分布。这是因为正态分布的残差意味着模型的假设是合理的,且估计的系数和预测是可靠的。
    模型诊断:如果残差不符合正态分布,可能表明模型不适合数据,或者数据中存在异常值、异方差性等问题。

Q-Q图

在这里插入图片描述
在这里插入图片描述

残差图

在这里插入图片描述
在这里插入图片描述

4、多元线性回归(增加变量gdp、人口增长率)

在这里插入图片描述

5、预测

(1)指数预测

在这里插入图片描述

(2)多项式预测

在这里插入图片描述

  • 26
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值