数据科学项目为你在这个领域的深入研究提供了一个基础。通过实际应用,你不仅可以学习数据科学,也能够写在简历中提升你的资历。在这上边花费的时间越多,你学到的知识就越多。
本文精选了24个数据科学项目,并囊括了各个领域和各种不同大小的数据集。另外,所有的数据集都是开源、可免费获取的。
初级——这部分的数据集很容易处理,使用基础的回归/分类算法就可以处理这些数据集。并且,这些数据集有足够的教程供你学习。
中级——略微有点难度。包含了需要使用有点难度的模式识别技能来处理的大中型数据集。另外,特征工程在这里可以发挥作用了。
高级——包括神经网络、深度学习、推荐系统及高维数据等。
初级
1.Iris Data数据集(花的类别识别)
Iris Data Set可能是模式识别领域学习分类技术最基本入门级的数据集,适合初学者。该数据集里面包含了150行4列个数据。
2.Loan Prediction 数据集(贷款预测)
它是保险领域最常引用的一个数据集。利用这个数据集,你可以充分体验到如何处理保险公司的数据,包括会遇到哪些挑战、需要什么策略、哪些变量会影响结果等。这是一个分类问题,数据集包含615行13列个数据。
3. Bigmart Sales 数据集(零售业销售)
零售业是另一个充分利用数据分析优化商业流程的行业。我们可以利用数据科学对商品的放置、库存管理、定制供应、商品捆绑等任务进行巧妙的处理。该数据集包含了商店的交易数据,是一个回归问题,共包含8523行12列个数据。