贝叶斯线性回归和多元线性回归构建工资预测模型

本文介绍了如何使用贝叶斯线性回归和多元线性回归来构建工资预测模型,探讨了在劳动经济学领域的工资研究。通过R语言分析横断面数据,包括探索性数据分析、简单的线性回归、变量转换、贝叶斯模型平均和预测。重点讨论了教育程度和工作小时数对工资的影响,并展示了如何通过贝叶斯方法进行模型选择和预测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文链接:http://tecdat.cn/?p=21641

在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解点击文末“阅读原文”获取完整代码数据)。

工资模型

在本文中,我们将分析横断面工资数据,以期在实践中使用贝叶斯方法,如BIC和贝叶斯模型来构建工资的预测模型。

相关视频

加载包

在本实验中,我们将使用dplyr包探索数据,并使用ggplot2包进行数据可视化。我们也可以在其中一个练习中使用MASS包来实现逐步线性回归。

我们将在实验室稍后使用此软件包中使用BAS.LM来实现贝叶斯模型。

数据

本实验室将使用的数据是在全国935名受访者中随机抽取的。

这是观察研究还是实验?

  • 观察研究

探索数据

与任何新数据集一样,标准的探索性数据分析是一个好的开始。我们将从工资变量开始,因为它是我们模型中的因变量。

  • 关于工资问题,下列哪种说法是错误的?

  • 7名受访者每周收入低于300元

summary(wage)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   115.0   669.0   905.0   957.9  1160.0  3078.0

83a78ebbb701413d5ed08e56e697204f.png

61cc214624bd6fd1289c1972e1a22401.png

由于工资是我们的因变量,我们想探讨其他变量之间的关系作为预测。
练习:排除工资和工龄,选择另外两个你认为可以很好预测工资的变量。使用适当的图来形象化他们与工资的关系。


点击标题查阅往期内容

08a36555ce57b2251cffffe37513da93.jpeg

视频:R语言中的Stan概率编程MCMC采样的贝叶斯模型

outside_default.png

左右滑动查看更多

outside_default.png

01

b341819ef649edf1fe006b8aa344a397.png

02

6414833e28c0b076ed84eda7f88be4d8.png

03

ef3bfd1271aa5650bc64086de009475b.png

04

434638d340bfe3c110cffb6346afd884.png


受教育程度和工作小时数似乎是工人工资的良好预测因素。

ggplot(data = wage, aes(y=wage, x=exper))+geom_point()

3523cccce40704eb16a45089c8ba1646.png

ggplot(data = wage, aes(y=wage, x=educ))+geom_point()

7bf52f33e5e629d8caf9acbc78e9fdf5.png

简单的线性回归

对于我们在数据中看到的工资差异,一个可能的解释是,更聪明的人赚更多的钱。下图显示了周工资和智商得分之间的散点图。

ggplot(data = wage, aes(x = iq, y = wage)) +
  geom_point()

1688d7deb2c51488cbb8b89c1563760a.png

这个图是相当杂乱的。虽然智商分数和工资之间可能存在轻微的正线性关系,但智商充其量只是一个粗略的工资预测指标。我们可以通过拟合一个简单的线性回归来量化这一点。

m\_wage\_iq$coefficients
## (Intercept)          iq 
##  116.991565    8.303064
## \[1\] 384.7667

回想一下,在模型下

9013231db4cb830a5601b67b2ee7357e.png

如果使用 6e699982e633d7ba5530623899f80243.png 和参考先验 efcb49debb5590f85d905b33126c0a05.png   ,然后贝叶斯后验均值和标准差分别等于频数估计和标准差。

贝叶斯模型规范假设误差正态分布且方差为常数。与频率法一样,我们通过检查模型的残差分布来检验这一假设。如果残差是高度非正态或偏态的,则违反了假设,任何随后的推断都是无效的。

  • 检验m\_wage\_iq的残差。正态分布误差的假设有效吗?

  • 不,因为模型的残差分布是右偏的。

qqnorm(m\_wage\_iq$residuals)
qqline(m\_wage\_iq$residuals)

8d3df5646e549c2d18ab6f1af2c388cc.png

6e7253763bce05e8f1065a6828557900.png

练习:重新调整模型,这次使用educ(教育)作为自变量。你对上一个练习的回答有变化吗?

## (Intercept)        educ 
##   146.95244    60.21428
summary(m\_wage\_educ)$sigma
## \[1\] 382.3203

4bfea26e310e647936d02cb54c2ca6cf.png

69d009386c17e0a2229033ecf0f65db8.png

同样的结论是,该线性模型的残差与ϵi∼N(0,σ2)近似正态分布&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值