数据科学Dojo在其存储库中添加了15个数据集,可供数据科学爱好者和AI爱好者免费使用,并根据不同的难度级别进行了分类。它们能够增加使用者的知识储备并实践练习,以提高在各个领域的技能,比如探索性数据分析、数据可视化、数据整理和机器学习。
为方便起见,下面的数据集已按照增加的难度级别进行排序(初级、中级、高级)。建议你使用提供的不同数据集来测试自己。在每个数据集中还提出了一个具有挑战性的问题,你可以随意使用。
1. 通过物理测量判断鲍鱼的年龄
水平:初级
推荐使用:回归模型
领域:生物
这个初级水平数据集有4,177行,9列关于鲍鱼的物理测量值和环数(代表年龄)。鲍鱼的年龄通常由枯燥且耗时的任务决定。因此,这些易于获得的物理测量可用于预测年龄。
链接:https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Abalone
零基础自学大数据开发的小伙伴可以根据小编提供的学习路线图进行学习,分阶段的进行,每个阶段自己做个小项目,这样记忆更深刻,不然跳跃式的学习对于零基础自学大数据有一定的难度,如果对于怎么学习大数据你还不太清楚,你可以加入大数据学习qq群:458345782,对你以后自学大数据会有所帮助的。
2. 预测学生的知识水平
水平:初级
推荐使用:分类/聚合
领域:教育/网页
该数据集有403行和6列。它是关于学生对于电气直流电机知识的真实数据集。
链接:
https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/User%20Knowledge%20Modeling
3. 预测房价