平均工资数据分析之回归

链接: R语言实战——中国职工平均工资的变化分析——相关与回归分析

1、模型诊断和评估的方法

1. 残差分析

1、残差图 (Residual Plot):用于检查残差是否存在非随机模式。理想情况下,残差应随机分布在零附近
2、Q-Q 图 (Quantile-Quantile Plot):用于检查残差是否符合正态分布。如果残差接近正态分布,Q-Q 图上的点应接近一条直线
3、Shapiro-Wilk Test:用于检验残差的正态性。p 值大于 0.05 表示残差近似正态分布。

2. 多重共线性检测

方差膨胀因子 (VIF, Variance Inflation Factor):用于检测多重共线性。如果 VIF 值大于 10,说明存在严重的多重共线性问题。

3. 模型拟合优度

R² 和调整后的 R²:衡量模型解释变异的能力。调整后的 R² 考虑了自变量个数,对模型复杂度进行了惩罚。
AIC (Akaike 信息准则) 和 BIC (贝叶斯信息准则):用于模型比较,较低的 AIC 或 BIC 表示模型更好。

4. 异常值和影响点

标准化残差 (Standardized Residuals):用于识别异常值。绝对值大于 2 或 3 的残差可能是异常值。
Cook’s 距离 (Cook’s Distance):用于识别对模型有显著影响的数据点。Cook’s 距离大于 1 的点可能是影响点。

5. 异方差性检验

Breusch-Pagan Test:用于检测异方差性。如果 p 值小于 0.05,说明存在异方差性问题。
White Test:另一种异方差性检测方法。

6. 自相关性检验

Durbin-Watson Test:用于检测残差的自相关性。值接近 2 表示不存在自相关性,值接近 0 或 4 表示存在自相关性。

7. 预测性能评估

交叉验证 (Cross-Validation):将数据集分成训练集和测试集,评估模型在未见过的数据上的表现。
均方误差 (MSE, Mean Squared Error) 和 均方根误差 (RMSE, Root Mean Squared Error):用于衡量模型的预测误差。

2、指数回归(对数模型)——地区

由于指数模型的值会过于大,会出现以下警告

: RuntimeWarning: overflow encountered in exppredicted_values_exp = np.exp(predicted_values)

这个警告通常是由于指数函数中的值过大而引起的。当预测值非常大时,应用指数函数可能会导致数值溢出(overflow)

因此:使用对数函数:如果数据呈现指数型增长,可以考虑使用对数函数进行拟合和预测。这样可以将指数型增长的问题转化为线性回归问题

(1)构建对数模型并可视化

在这里插入图片描述
在这里插入图片描述

(2)模型诊断的评估

在这里插入图片描述

  1. Omnibus(Omnibus test of normality):
    这个统计量是对模型中误差项的正态性进行综合检验的统计量。正态性是线性回归模型的一个重要假设,即模型的残差应该近似服从正态分布。Omnibus统计量的p值提供了一个关于模型中误差项是否服从正态分布的检验结果。如果p值低于某个显著性水平(通常是0.05),则拒绝了误差项服从正态分布的假设。p值应该越大越好,因为大的p值表示误差项符合正态分布的假设越合理。
  2. Skewness(Skewness of residuals):
    偏度是衡量数据分布偏斜程度的统计量。在线性回归模型中,残差的偏度可以用来检验误差项是否符合正态分布。如果残差的偏度接近于0,则表示数据分布大致对称。如果偏度值大于0,则表示数据分布右偏,即正偏。如果偏度值小于0,则表示数据分布左偏,即负偏。通常认为,偏度的绝对值大于2时,数据分布具有显著的偏斜。偏度应该接近于0,因为接近于0表示数据分布大致对称,符合正态分布的特征。
  3. Kurtosis(Kurtosis of residuals):
    峰度是衡量数据分布峰态(峰的陡峭程度)的统计量。在线性回归模型中,残差的峰度可以用来检验误差项是否符合正态分布。如果残差的峰度接近于0,则表示数据分布具有正常的峰态。如果峰度值大于0,则表示数据分布具有尖峰,即峰态较高。如果峰度值小于0,则表示数据分布扁平,即峰态较低。与偏度类似,通常认为,峰度的绝对值大于2时,数据分布具有显著的峰态。峰度应该接近于0,因为接近于0表示数据分布的峰态与正态分布相似,没有明显的尖峰或扁平。
  4. Durbin-Watson statistic:
    杜宾-沃森统计量是用来检验残差是否存在自相关(序列相关)的统计量。自相关是指残差之间的相关性,如果残差之间存在自相关,意味着模型中的一些信息没有被完全捕捉到,可能导致模型的估计结果不准确。Durbin-Watson统计量的取值范围为0到4之间,如果接近于2,则表示残差之间不存在自相关;如果接近于0或4,则表示存在正向或负向自相关。通常认为,当Durbin-Watson统计量的值在1.5到2.5之间时,不存在严重的自相关问题。值接近于2,因为接近于2表示残差之间不存在自相关,即模型中没有未被捕捉到的序列相关性。

Q-Q图

在这里插入图片描述
在这里插入图片描述

残差图

在这里插入图片描述
在这里插入图片描述

3、多项式回归及检验——地区

(1)构建模型并可视化

在这里插入图片描述

(2)模型诊断评估

在这里插入图片描述
在这里插入图片描述

  1. Shapiro-Wilk Test
    W 值:Shapiro-Wilk Test 的统计量。这个值接近于1时,表示样本数据与正态分布相符。
    p 值:Shapiro-Wilk Test 的显著性水平。如果 p 值小于某个阈值(通常为 0.05),我们拒绝原假设,认为数据不服从正态分布。反之,如果 p 值大于 0.05,我们不能拒绝原假设,认为数据服从正态分布。
    作用和意义
    Shapiro-Wilk Test 的主要作用是检验数据正态性,这在统计分析中非常重要,因为许多统计方法(如 t 检验、回归分析)假设数据是正态分布的。如果数据不符合正态分布,这些方法的结果可能不可靠。
    残差正态性:在回归分析中,残差应该近似正态分布。这是因为正态分布的残差意味着模型的假设是合理的,且估计的系数和预测是可靠的。
    模型诊断:如果残差不符合正态分布,可能表明模型不适合数据,或者数据中存在异常值、异方差性等问题。

Q-Q图

在这里插入图片描述
在这里插入图片描述

残差图

在这里插入图片描述
在这里插入图片描述

4、多元线性回归(增加变量gdp、人口增长率)

在这里插入图片描述

5、预测

(1)指数预测

在这里插入图片描述

(2)多项式预测

在这里插入图片描述

  • 26
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
背景描述 在人力资源管理领域中,分析各项员工工作相关的数据和指标,可以揭示员工流失的趋势和原因、薪酬公平性、员工满意度以及职业发展路径等关键指标。这些见解对于优化人才招聘、留存策略、绩效评估体系和员工发展计划至关重要。 通过对这些多维数据的深入分析,组织可以制定更加人性化的管理措施,改进工作环境,提高员工的工作满意度和忠诚度,从而推动组织的整体业绩和竞争力。此外,分析结果还支持制定更加公正和激励性的薪酬体系,以吸引和保留顶尖人才,确保组织的长期成功和可持续发展。 数据说明 字段 说明 EmpID 唯一的员工ID Age 年龄 AgeGroup 年龄组 Attrition 是否离职 BusinessTravel 出差:很少、频繁、不出差 DailyRate 日薪 Department 任职部门:研发部门、销售部门、人力资源部门 DistanceFromHome 通勤距离 Education 教育等级 EducationField 专业领域:生命科学、医学、市场营销、技术、其他 EnvironmentSatisfaction 工作环境满意度 Gender 性别 HourlyRate 时薪 JobInvolvement 工作参与度 JobLevel 工作级别 JobRole 工作角色 JobSatisfaction 工作满意度 MaritalStatus 婚姻状况 MonthlyIncome 月收入 SalarySlab 工资单 MonthlyRate 月薪 NumCompaniesWorked 工作过的公司数量 PercentSalaryHike 加薪百分比 PerformanceRating 绩效评级 RelationshipSatisfaction 关系满意度 StandardHours 标准工时 StockOptionLevel 股票期权级别 TotalWorkingYears 总工作年数 TrainingTimesLastYear 去年培训时间 WorkLifeBalance 工作生活平衡评价 YearsAtCompany 在公司工作年数 YearsInCurrentRole 担任现职年数 YearsSinceLastPromotion 上次晋升后的年数 YearsWithCurrManager 与现任经理共事年数 问题描述 员工流失分析 识别导致员工离职的因素(Attrition与其他字段的关系,如满意度、工资、通勤距离等)。 分析不同年龄组、婚姻状况、工作年数与离职率之间的关系。 薪酬公平性研究 比较不同性别(Gender)、教育等级(Education)和专业领域(EducationField)的薪资差异。 探讨工作级别(JobLevel)、工作角色(JobRole)与月收入(MonthlyIncome)、时薪(HourlyRate)、日薪(DailyRate)之间的关系。 工作满意度分析 评估工作满意度(JobSatisfaction)、工作环境满意度(EnvironmentSatisfaction)、关系满意度(RelationshipSatisfaction)与员工绩效(PerformanceRating)之间的关联。 分析工作生活平衡评价(WorkLifeBalance)与工作参与度(JobInvolvement)、在公司工作年数(YearsAtCompany)之间的关系。 职业发展和晋升路径分析 检查晋升历史(YearsSinceLastPromotion)与工作满意度、工作级别和绩效评级之间的关联。 分析员工在当前角色的时间(YearsInCurrentRole)对于工作参与度和晋升机会的影响。 培训和发展需求评估 评估培训次数(TrainingTimesLastYear)与员工绩效评级的关系。 分析工作经验(TotalWorkingYears)与培训需求之间的关系。 员工福利和激励措施分析 探索股票期权级别(StockOptionLevel)对员工留存的影响。 分析加薪百分比(PercentSalaryHike)与员工满意度和绩效的关系。 人力资源规划和预测 预测哪些因素会影响员工留存(如工资、工作满意度、工作环境)。 用历史数据建模,预测员工晋升路径和潜在的流失风险。
【资源说明】 基于Python实现国内各省会直辖市平均工资平均房价数据可视化分析源码(带数据+设计方案).zip基于Python实现国内各省会直辖市平均工资平均房价数据可视化分析源码(带数据+设计方案).zip基于Python实现国内各省会直辖市平均工资平均房价数据可视化分析源码(带数据+设计方案).zip基于Python实现国内各省会直辖市平均工资平均房价数据可视化分析源码(带数据+设计方案).zip基于Python实现国内各省会直辖市平均工资平均房价数据可视化分析源码(带数据+设计方案).zip基于Python实现国内各省会直辖市平均工资平均房价数据可视化分析源码(带数据+设计方案).zip基于Python实现国内各省会直辖市平均工资平均房价数据可视化分析源码(带数据+设计方案).zip 基于Python实现国内各省会直辖市平均工资平均房价数据可视化分析源码(带数据+设计方案).zip 基于Python实现国内各省会直辖市平均工资平均房价数据可视化分析源码(带数据+设计方案).zip 基于Python实现国内各省会直辖市平均工资平均房价数据可视化分析源码(带数据+设计方案).zip 【备注】 1.项目代码均经过功能验证ok,确保稳定可靠运行。欢迎下载使用体验! 2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中,如有问题或建议,请及时沟通。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈!
### 回答1: 根据我所了解的数据,各地区数据分析师的工资平均值可能会有所不同。一些因素,如企业规模、工作经验以及地理位置等,都可能对数据分析师的工资产生影响。因此,如果您告诉我具体的地理位置和背景信息,我可以通过搜索数据来给您提供更准确的答案。 ### 回答2: 要求各地区数据分析师的工资平均值,需要收集不同地区的数据分析工资信息,并计算平均值。数据分析师的工资平均值受多种因素影响,包括地区、经验、技能水平等。 首先,可以通过调查问卷或人力资源部门的工资数据来收集不同地区数据分析师的工资信息。这些数据应包括地区、工资、工作经验、学历等变量。 收集到足够的数据后,可以采用以下步骤计算各地区数据分析师的工资平均值: 1. 将数据按照地区进行分组,统计每个地区数据分析师的数量。 2. 对于每个地区,计算所有数据分析师的工资总和。 3. 将工资总和除以对应地区的数据分析师数量,得到每个地区的工资平均值。 计算得到的平均值将反映各地区数据分析师的工资水平。然而,由于这只是一个估计,存在一定的误差。因此,需要考虑到样本大小、数据采集方式以及可能的偏差等因素。 总之,求各地区数据分析师的工资平均值需要收集各地区的数据分析工资信息,并进行计算。这可以提供不同地区数据分析工资水平的大致了解,有助于了解各地区的薪资差异以及制定相应的薪资政策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值