拿到一个数据集,我们应该怎么做?
在这篇文章中,我们将深入探讨机器学习核心步骤中的第一步:探索性分析。
在正式开始前,千万不要把这一步与数据可视化或数据结果统计混淆——数据可视化或数据结果统计意味着结果。
恰当的探索性分析其实就是回答问题,就是从数据集中尽可能多地得到数据启发。
在这一篇中,我们会向大家说明在探索性分析过程中需要了解的内容。
为什么要先分析数据集?
探索性分析是为了更好地了解数据集。这样做可以使项目的其他环节运行更流畅:
1.获得有关数据清理的宝贵灵感(数据清理有可能会破坏模型)
2.获得特征工程的启发(可以使模型性能更好)
3.获得对数据集的感性认识(有助于最终的结果交流和影响传递)
机器学习所需要的探索性分析应该是快速、高效、果断的……我们不要卡在上面,花费太多时间,但是,也不能跳过这一步。
在这个过程中,我们会面对n多张图表,但是,只需要少数几张就可以充分了解所有数据并加以利用。
从基础开始
首先,我们需要回答关于数据集的一系列基本问题:
•有多少个观察组?
•有哪些特征?
•特征对应的数据类型是什么?是数字吗?可分类吗?
•是否有目标变量?
观察示例