原文链接:http://tecdat.cn/?p=21641
在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解(点击文末“阅读原文”获取完整代码数据)。
工资模型
在本文中,我们将分析横断面工资数据,以期在实践中使用贝叶斯方法,如BIC和贝叶斯模型来构建工资的预测模型。
相关视频
加载包
在本实验中,我们将使用dplyr包探索数据,并使用ggplot2包进行数据可视化。我们也可以在其中一个练习中使用MASS包来实现逐步线性回归。
我们将在实验室稍后使用此软件包中使用BAS.LM来实现贝叶斯模型。
数据
本实验室将使用的数据是在全国935名受访者中随机抽取的。
这是观察研究还是实验?
观察研究
探索数据
与任何新数据集一样,标准的探索性数据分析是一个好的开始。我们将从工资变量开始,因为它是我们模型中的因变量。
关于工资问题,下列哪种说法是错误的?
7名受访者每周收入低于300元
summary(wage)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 115.0 669.0 905.0 957.9 1160.0 3078.0
由于工资是我们的因变量,我们想探讨其他变量之间的关系作为预测。
练习:排除工资和工龄,选择另外两个你认为可以很好预测工资的变量。使用适当的图来形象化他们与工资的关系。
点击标题查阅往期内容
左右滑动查看更多
01
02
03
04
受教育程度和工作小时数似乎是工人工资的良好预测因素。
ggplot(data = wage, aes(y=wage, x=exper))+geom_point()
ggplot(data = wage, aes(y=wage, x=educ))+geom_point()
简单的线性回归
对于我们在数据中看到的工资差异,一个可能的解释是,更聪明的人赚更多的钱。下图显示了周工资和智商得分之间的散点图。
ggplot(data = wage, aes(x = iq, y = wage)) +
geom_point()
这个图是相当杂乱的。虽然智商分数和工资之间可能存在轻微的正线性关系,但智商充其量只是一个粗略的工资预测指标。我们可以通过拟合一个简单的线性回归来量化这一点。
m\_wage\_iq$coefficients
## (Intercept) iq
## 116.991565 8.303064
## \[1\] 384.7667
回想一下,在模型下
如果使用 和参考先验
,然后贝叶斯后验均值和标准差分别等于频数估计和标准差。
贝叶斯模型规范假设误差正态分布且方差为常数。与频率法一样,我们通过检查模型的残差分布来检验这一假设。如果残差是高度非正态或偏态的,则违反了假设,任何随后的推断都是无效的。
检验m\_wage\_iq的残差。正态分布误差的假设有效吗?
不,因为模型的残差分布是右偏的。
qqnorm(m\_wage\_iq$residuals)
qqline(m\_wage\_iq$residuals)
练习:重新调整模型,这次使用educ(教育)作为自变量。你对上一个练习的回答有变化吗?
## (Intercept) educ
## 146.95244 60.21428
summary(m\_wage\_educ)$sigma
## \[1\] 382.3203
同样的结论是,该线性模型的残差与ϵi∼N(0,σ2)近似正态分布&#