Kaggle 数据分析系列第三部分:深入探索数据科学角色差异和性别差异
这篇文章是 Kaggle 数据分析系列的第三部分,延续前两部分的分析,旨在更深入地探索数据科学相关领域的不同角色和性别差异。
回顾前两部分内容:
- 第一部分介绍了如何参加 Kaggle 竞赛,熟悉数据并提出分析问题。
- 第二部分使用 Plotly 库构建图表,分析不同数据科学角色所使用的技能和工具。
第三部分重点:
- 扩展分析,构建更多图表并提高代码可重复性,以应对日益复杂的分析需求。
- 探索数据集中存在的性别差异,并邀请女性朋友 Tina Huang 共同审查分析结果。
- 提供开放式分析,鼓励观众克隆 Kaggle 代码并基于现有基础生成自己的发现。
- 提出利用已有项目进行拓展分析的建议,即借鉴他人工作并进行进一步探索。
具体内容:
- 继续构建上一部分的交互式图表,添加更多下拉菜单和对比功能,使图表更具分析能力。
- 通过构建新图表分析数据科学人员选择的 IDE、编程语言等信息,并比较不同角色之间的差异。
- 展示如何构建自服务分析工具,帮助用户快速找到数据洞察。
- 鼓励观众参与分析,并分享自己发现的有趣现象。
总结:
本系列文章通过对 Kaggle 数据集的深入分析,展示了数据科学领域的不同角色特征和性别差异,并提供了一些分析技巧和工具,鼓励读者积极参与数据探索,并从中获得启发和收获。
笔记本 1:https://www.kaggle.com/kenjee/kaggle-project-from-scratch笔记本 2:https://www.kaggle.com/kenjee/analyzing-gender-and-earning-potential-in-tech在这个视频中,我做了两个主要分析。首先,我使用 Kaggle 开发者调查数据构建更高级的图表,以比较数据科学角色中技能和特征的差异。然后,我创建了一个函数来使此任务更具可扩展性。在视频的第二部分,我使用了几种不同的技术来确定数据科学中是否存在性别偏见,特别是与薪资相关的性别偏见。在笔记本中,我:- 首先可视化和规范化样本中的性别差异- 运行多元线性回归以了解哪些因素对收入潜力贡献最大- 运行 Lasso 回归以缩小变量集并尝试量化性别对收入潜力的影响程度- 对相同数据运行随机森林以评估特征重要性(像这样的非线性模型是一个很好的检查)- 比较仅针对女性和男性子集的模型,希望能够针对更多变量进行规范化