前言
如我们所知,数据分析工作的70%的时间都用作于数据清洗,数据探索和数据准备当中,这可以说是数据分析的核心所在。数据清洗主要是工具层面上的,这里先不讨论。我们这里讨论数据探索和数据准备的六大步骤。
- 变量的识别
- 单变量的分析
- 双变量的分析
- 处理缺失值
- 处理异常值
- 特征提取(Feature Engineering)
变量的识别
在对数据分析之前,我们需要去识别变量,去了解变量的类型和数据的类型。比如判别变量是分类型变量的还是连续型变量,是二分类还是有序变量。这些知识在任何一本统计学书上第一章都会详细介绍。图片来自于哈佛大学数据分析课程
单变量的分析
识别完变量之后,我们算是初步的了解了数据的全貌,知道其大概表示什么。接下来我们应该对每一个变量进行分析,以期更深入的了解数据,并希望从中得到一个假设,以便接下来的检验。对于单变量的分析,我们根据单变量的类型进行特定的分析。
连续型变量:
- 概括性度量:均数,中位数,众数,最大值,最小值,极差,百分位数,四分位数,方差,标准差,偏度和峰度。
- 图形:直方图和箱型图
- 检验:检验其分布:P-P图和K-S单样本检验
分类型变量:主要是要频数表