数据探索性分析
EDA 即 Exploratory Data Analysis,当我们拿到数据之后,需要对数据本身有一个直观的理解比如各项统计值:最大值,最小值,中位数,均值,方差,偏移度,丰度等等,这些指标可以帮助我们跨快速的浏览数据的样貌,获得一个大体的认知。
EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。
引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。
内容介绍
-
载入数据及数据总览
-
利用
pandas
库的read_csv
、read_excel
等函数进行数据读取,变成dataframe
类型的文件,以便后续处理。 -
对于
dataframe
类型的数据,可用self.tail()
或者self.head()
来初步读取首尾数据的情况; 利用self.shape
可以得到该数据的大小情况。 -
对于
dataframe
类型的数据总览,可利用self.describe()
函数得到数据的相关统计量(总数、均值、方差等情况); 利用self.info()
函数可以得到该数据变量的相关类型情况。
-
-
数据缺失异常值处理
-
利用
self.isnull()
函数可以识别数据缺失的情况,返回逻辑值。将其与self.sum()
求和函数结合(即self.isnull().sum()
)可以得到数据中每列的缺失值情况 -
缺失值的情况可以
bar()
、matrix()
等函数进行可视化,如果缺失较少,可以进行填充,缺失值量较大,可以直接删除相关数据变量。 -
首先可以利用
self.info()
函数查找相关变量的数据类型,进而确定相关变量是否存在异常值(例如Object
类型) -
利用
self.value_counts()
函数可以得到大致数据的分布,若特征严重倾斜,可以直接删除相关变量。
-