Kaggle 项目从零开始 - 第 3 部分（高级图表和性别失衡分析）

KenJee_ds

于 2024-08-16 18:23:48 发布

阅读量401

点赞数 5

文章标签： numpy sql pandas plotly scikit-learn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KenJee_ds/article/details/141266802

版权

Kaggle 数据分析系列第三部分：深入探索数据科学角色差异和性别差异

这篇文章是 Kaggle 数据分析系列的第三部分，延续前两部分的分析，旨在更深入地探索数据科学相关领域的不同角色和性别差异。

回顾前两部分内容:

第一部分介绍了如何参加 Kaggle 竞赛，熟悉数据并提出分析问题。
第二部分使用 Plotly 库构建图表，分析不同数据科学角色所使用的技能和工具。

第三部分重点:

扩展分析，构建更多图表并提高代码可重复性，以应对日益复杂的分析需求。
探索数据集中存在的性别差异，并邀请女性朋友 Tina Huang 共同审查分析结果。
提供开放式分析，鼓励观众克隆 Kaggle 代码并基于现有基础生成自己的发现。
提出利用已有项目进行拓展分析的建议，即借鉴他人工作并进行进一步探索。

具体内容:

继续构建上一部分的交互式图表，添加更多下拉菜单和对比功能，使图表更具分析能力。
通过构建新图表分析数据科学人员选择的 IDE、编程语言等信息，并比较不同角色之间的差异。
展示如何构建自服务分析工具，帮助用户快速找到数据洞察。
鼓励观众参与分析，并分享自己发现的有趣现象。

总结:

本系列文章通过对 Kaggle 数据集的深入分析，展示了数据科学领域的不同角色特征和性别差异，并提供了一些分析技巧和工具，鼓励读者积极参与数据探索，并从中获得启发和收获。

笔记本 1：https://www.kaggle.com/kenjee/kaggle-project-from-scratch笔记本 2：https://www.kaggle.com/kenjee/analyzing-gender-and-earning-potential-in-tech在这个视频中，我做了两个主要分析。首先，我使用 Kaggle 开发者调查数据构建更高级的图表，以比较数据科学角色中技能和特征的差异。然后，我创建了一个函数来使此任务更具可扩展性。在视频的第二部分，我使用了几种不同的技术来确定数据科学中是否存在性别偏见，特别是与薪资相关的性别偏见。在笔记本中，我：- 首先可视化和规范化样本中的性别差异- 运行多元线性回归以了解哪些因素对收入潜力贡献最大- 运行 Lasso 回归以缩小变量集并尝试量化性别对收入潜力的影响程度- 对相同数据运行随机森林以评估特征重要性（像这样的非线性模型是一个很好的检查）- 比较仅针对女性和男性子集的模型，希望能够针对更多变量进行规范化

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Kaggle 项目从零开始 - 第 3 部分（高级图表和性别失衡分析）

Kaggle 数据分析系列第三部分：深入探索数据科学角色差异和性别差异这篇文章是 Kaggle 数据分析系列的第三部分，延续前两部分的分析，旨在更深入地探索数据科学相关领域的不同角色和性别差异。回顾前两部分内容:第一部分介绍了如何参加 Kaggle 竞赛，熟悉数据并提出分析问题。第二部分使用 Plotly 库构建图表，分析不同数据科学角色所使用的技能和工具。第三部分重点:扩展分析...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

KenJee_ds 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。