Kaggle 项目从零开始 - 第 3 部分(高级图表和性别失衡分析)

Kaggle 数据分析系列第三部分:深入探索数据科学角色差异和性别差异

这篇文章是 Kaggle 数据分析系列的第三部分,延续前两部分的分析,旨在更深入地探索数据科学相关领域的不同角色和性别差异。

回顾前两部分内容:

  • 第一部分介绍了如何参加 Kaggle 竞赛,熟悉数据并提出分析问题。
  • 第二部分使用 Plotly 库构建图表,分析不同数据科学角色所使用的技能和工具。

第三部分重点:

  • 扩展分析,构建更多图表并提高代码可重复性,以应对日益复杂的分析需求。
  • 探索数据集中存在的性别差异,并邀请女性朋友 Tina Huang 共同审查分析结果。
  • 提供开放式分析,鼓励观众克隆 Kaggle 代码并基于现有基础生成自己的发现。
  • 提出利用已有项目进行拓展分析的建议,即借鉴他人工作并进行进一步探索。

具体内容:

  • 继续构建上一部分的交互式图表,添加更多下拉菜单和对比功能,使图表更具分析能力。
  • 通过构建新图表分析数据科学人员选择的 IDE、编程语言等信息,并比较不同角色之间的差异。
  • 展示如何构建自服务分析工具,帮助用户快速找到数据洞察。
  • 鼓励观众参与分析,并分享自己发现的有趣现象。

总结:

本系列文章通过对 Kaggle 数据集的深入分析,展示了数据科学领域的不同角色特征和性别差异,并提供了一些分析技巧和工具,鼓励读者积极参与数据探索,并从中获得启发和收获。

笔记本 1:https://www.kaggle.com/kenjee/kaggle-project-from-scratch笔记本 2:https://www.kaggle.com/kenjee/analyzing-gender-and-earning-potential-in-tech在这个视频中,我做了两个主要分析。首先,我使用 Kaggle 开发者调查数据构建更高级的图表,以比较数据科学角色中技能和特征的差异。然后,我创建了一个函数来使此任务更具可扩展性。在视频的第二部分,我使用了几种不同的技术来确定数据科学中是否存在性别偏见,特别是与薪资相关的性别偏见。在笔记本中,我:- 首先可视化和规范化样本中的性别差异- 运行多元线性回归以了解哪些因素对收入潜力贡献最大- 运行 Lasso 回归以缩小变量集并尝试量化性别对收入潜力的影响程度- 对相同数据运行随机森林以评估特征重要性(像这样的非线性模型是一个很好的检查)- 比较仅针对女性和男性子集的模型,希望能够针对更多变量进行规范化

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KenJee_ds

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值