Python个人收入影响因素模型构建：回归、决策树、梯度提升、岭回归

拓端研究室

于 2024-08-21 19:43:38 发布

阅读量1k

点赞数 20

文章标签：零售

本文链接：https://blog.csdn.net/qq_19600291/article/details/141390713

版权

全文链接：https://tecdat.cn/?p=37423

原文出处：拓端数据部落公众号
“你的命运早在出生那一刻起便被决定了。”这样无力的话语，无数次在年轻人的脑海中回响，尤其是在那些因地域差异而面临教育资源匮乏的年轻人中更为普遍。在中国，这种现象尤为明显：没有生在大城市的他们，从小便需面对教育资源的不平等，有人甚至在初中阶段便被迫放弃学业，转而在流水线旁成为普工；而即便有幸成为家乡的佼佼者，他们长大后也可能因户口问题而选择低薪工作，或是将收入的一半付给房东。

然而，当我们跨越国界，来到高度发达的英国，却发现类似的问题依旧存在。一项发表在《城市经济学》上的研究，通过对英国7500名居民长达近二十年的追踪调查，揭示了原生城市规模对个人成年后收入的深远影响。研究发现，与曼彻斯特和利物浦相比，伦敦出生的居民平均收入更高，这一发现无疑加剧了小城市居民的心理压力。
然而，研究并未止步于揭示这些机制。为了进一步量化各变量对收入的影响，研究者们应用了复杂的计量方法，对变量进行了细致的解构。他们发现，“学习”（即工作后获得的知识和经验积累）在原生城市规模对收入的影响中占据了高达65.2%的比重，而教育和当前工作城市规模则分别占据了10.9%和8.6%的比重。
这一发现为我们提供了宝贵的启示：尽管出身无法选择，但个人仍然可以通过持续学习和努力来提升自己的收入水平。在数据时代，我们更应该重视数据的作用，通过构建精确高效的模型来预测和解释个人收入的差异。
为此，我们通过分析多种影响收入的数据，构建影响个人收入的模型，并据此为相关部门提供建议。我们采用了多种建模方式，包括简单线性回归、决策树、梯度提升、岭回归等，并通过测试数据回测选出了表现最好的模型。
最终，我们发现教育、工作经验、婚姻状况、是否在城市生活以及智商和母亲教育程度的交互作用等因素对个人收入具有显著影响。这一发现不仅为我们理解个人收入的差异提供了新的视角，更为我们制定相关政策提供了有力的支持。

任务/目标

通过分析多种影响收入的数据，构建影响个人收入的模型，实现对个人收入预测，并根据模型结果为教育部等相关部门提出建议。

数据源准备

有相关数据的详细披露，需要将目标数据爬取或直接下载。

数据清洗

但经过python相关函数的检测，我们发现很多空数据，由于模型和数据涉及的影响变量较多，所以出现空数据的个体无法参与到所有因素的建模中。

但若去掉携带空数据的个体后数据分布发生变化，则使用去掉空数据后建立的模型就无法准确预测整体样本，面对这个问题，我们对比了完整样本和去掉空数据后样本的柱状图，证明了去掉空数据并不会影响样本的整体分布。

构造

样本中一共收集了935个人的16项不同的相关数据。

去掉空数据后新样本一共收集了663个人的16项不同的相关数据。

划分训练集和测试集

由于相关部门的数据披露并没有时间顺序，所以为了建立真实和无偏差的测试模型，我们以8:2的分数形式对数据样本切分训练集和测试集。具体做法如下：

我们一共有663份相关数据，随机抓取530份数据作为training data（即训练数据），剩下的133份数据作为testing data（即测试数据）。

探索性分析

利用成对分析和热力图，对大量的变量和数据之间的关系进行观察和预测。

建模

由于变量数过大，我们对训练数据采用了简单线性回归、多重线性回归、线性样条、带多个节点的线性样条、多项式回归、变量间相互作用、对数转换、指数转换等多个建模方式，并定义前向选择和逆向选择的函数，协助进行高效建模，最终从20多个模型中选取表现最好的前八个模型。

模型选取

通过使用测试数据进行回测，选择在测试数据中表现最好的模型

在此项目中，经过测试数据的回测，选出的8个模型中，标记为log-interaction11的模型表现最好，表现最好的前三个模型拟合情况对比图如下：

log-interaction11采用正常最小二乘方回归的方程结果如下：

教育、工作经验、是否结婚和是否在城市生活的交互作用、年纪和知识面的交互作用、智商和母亲教育程度的交互作用、教育和是否为黑种人的交互作用组成了最终预测工作水平准确度最高的模型。

Python对工资影响的回归分析及偏差探讨|附代码数据

接下来，我们将尝试估算多接受一年教育对小时工资的影响。进行教育实验是非常困难的。你不能简单地将人们随机分配到 4 年、8 年或 12 年的教育。

model_1.summary().tables[1]

对工资与教育年限进行简单回归，估计出回归系数 β1 为 0.0536，95% 置信区间为 (0.039, 0.068)。这意味着该模型预测每增加一年教育，工资将增长约 5.3%。

仅考虑教育变量的简单模型可能存在偏差。首先，数据并非来自随机实验，接受更多教育的人与接受较少教育的人可能不可比。其次，从对世界的理解来看，受教育年限更多的人可能有更富裕的父母，工资随教育增加可能只是家庭财富与教育年限相关的反映。此外，教育也可能因让人远离劳动力市场而降低工资。

引入其他变量的多元回归分析

（一）变量选择
在数据中，我们可以获得其他变量，如父母教育程度（meduc、feduc）、个人智商（IQ）、工作经验（exper）、任期（tenure）以及婚姻和种族的虚拟变量等。

kappa = t_tilde.cov(y) / t_tilde.var()
kappa

通过引入这些变量进行多元回归分析，估计出在控制其他因素后，每增加一年教育与小时工资增长 4.11% 相关。这证实了简单模型存在偏差且高估了教育的影响。

model_2.summary().tables[1]

遗漏变量或混杂偏差

偏差来源
以教育对工资的影响为例，未控制智商等变量时，教育对工资的影响也包含了其他未纳入模型变量的影响，这是遗漏变量偏差的来源，即混杂变量影响了处理变量和结果变量。

g.edge("Police", "Violence", color="blue")

g

因果图分析

以教育对工资的影响为例，因果图显示教育导致工资，同时智商也导致工资和教育。如果不考虑智商变量，其对工资的影响会通过与教育的相关性使教育对工资的影响看起来比实际更高，这是正偏差的例子。
以警察对城市暴力的影响为例，城市警力增加与暴力增加相关，但可能存在混杂变量犯罪，犯罪导致更多暴力和更多警力。如果不考虑犯罪变量，犯罪对暴力的影响会通过警力使警力看起来增加了暴力，这是负偏差的例子。

回归与随机对照试验解决偏差的方法
回归分析通过将混杂变量固定在一定水平来比较处理变量的影响，而随机对照试验通过切断混杂变量与处理变量的联系来解决偏差问题。

Python机器学习：回归、决策树、梯度提升、岭回归薪资预测分析|附代码数据

接下来本文对数据集进行了全面分析，旨在基于年龄、工作年限、性别和职位等多个特征来预测薪资。通过广泛的数据处理、可视化以及机器学习方法，我们获得了有价值的见解并构建了具有高准确性的预测模型。

数据处理流程定义

（一）使用 ColumnTransformer 进行数据预处理
确定分类特征和数值特征，分类特征包括 “Gender”（性别）、“Education Level”（教育水平）、“Job Title”（职位），数值特征包括 “Age”（年龄）、“Years of Experience”（工作年限）。

import numpy as np

cat_features = ['Gender', 'Education Level', 'Job Title']
num_features = ['Age', 'Years of Experience']

定义超参数分布字典

为不同的回归模型定义超参数分布字典，例如 “LinearRegression”（线性回归）和 “DecisionTreeRegressor”（决策树回归器），设置不同的超参数取值范围，如线性回归的截距设置以及决策树回归器的最大深度、最小分割样本数和最小叶子样本数等。



param_distributions = {
    'LinearRegression': {
        'regressor__fit_intercept': [True, False],
    },
    'DecisionTreeRegressor': {
        'regressor__max_depth': [None] + list(np.arange(1, 21)),
        'regressor__min_samples_split': np.arange(2, 21),
        'regressor__min_samples_leaf': np.arange(1, 21)
    },

使用 RandomizeSearchCV 进行超参数优化

将数据集划分为训练集和测试集，对于不同的模型进行超参数优化，记录每个模型的最佳模型、最佳参数和最佳得分。

best_models = dict()
best_params = dict()
best_score = dict()
X_train, X_test, y_train, y_test = train_test_split(X.values, y.values, train_size=.8)
for model in param_distributions.keys():

模型性能评估与可视化

（一）绘制模型性能图
通过比较不同模型的性能，可以看出 “GradientBoostingRegressor”（梯度提升回归器）具有最佳性能。

（二）绘制预测结果与真实目标变量的散点图

以 “GradientBoostingRegressor” 模型为例，使用最佳模型对测试集进行预测，然后绘制预测结果与真实目标变量的散点图，以直观地展示模型的预测效果。

model = 'GradientBoostingRegressor'
y_pred = best_models[model].predict(X_test)
# y_pred = pipeline.predict(X_test)

总结

尽管命运或许在某种程度上被决定了，但我们仍然可以通过自己的努力和持续学习来改变自己的命运。在大数据的助力下，我们有望更加精准地预测和解释个人收入的差异，为每个人创造更加公平和美好的未来。

关于分析师

在此对 Greata Xie 对本文所作的贡献表示诚挚感谢，她在悉尼大学完成了金融、商业分析专业的硕士学位，专注数据采集、清洗、可视化和分析等领域。擅长 Python、SQL。