数据科学项目组合:三个必备项目类型
本文作者建议数据科学求职者在GitHub或Kaggle上展示三个类型的项目,以展现自己的能力,并吸引雇主注意。
第一种项目类型:探索性数据分析 (EDA)
- EDA项目展示了数据科学家用数据讲故事的能力。
- 它重点体现数据清洗、管道构建和特征工程等技能。
- 建议使用较为混乱的数据,例如从网站抓取或API获取的数据。
第二种项目类型:分类模型
- 这是一个预测二元或分类结果的项目,例如预测泰坦尼克号乘客是否幸存。
- 训练分类模型是数据科学家日常工作的重要组成部分。
- 可以通过展示预测概率、模型置信度以及不同评估指标(准确率、精确率、召回率、F1分数和ROC AUC曲线)来提升项目价值。
- 作者建议避免使用过于常见的项目,例如泰坦尼克号数据集,而是选择更独特、与个人兴趣相关的项目。
第三种项目类型: (本文未完成,请提供完整内容)
作者强调,项目组合应该包含个人特色,体现自己的兴趣和能力。
最后,作者还提到了英伟达举办的虚拟GPU技术大会,并提供免费门票的福利信息。
在本视频中,我将介绍 5 个你应该放在简历中的数据科学项目。 拥有这 5 个不同的项目将向雇主展示你在数据科学技能方面的多样性。 它还表明你可以收集、清理和执行特征工程。 我建议你从开放 API 抓取数据或收集数据。 例如泰坦尼克号数据集,你预测人们是否会在事故中幸存下来。 例如预测一个 YouTube 视频会获得多少点赞;)。