1 EDA的定义
探索性数据分析(Exploratory Data Analysis,简称EDA),指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。探索性数据分析是上世纪六十年代提出,其方法有美国统计学家John Tukey提出的。
2 EDA的计划:
1、形成假设,确定主题去探索;
2、清理数据,网上有一个网址公布斯坦福有一个软件叫datawrangler可以供大家自己免费下载,用于探索数据分析,很快的解决数据清洗的工作;
3、评价数据质量;
4、数据报表;
5、探索分析每个变量;
6、探索每个自变量与因变量之间的关系;
7、探索每个自变量之间的相关性;
8、从不同的维度来分析数据。
3 具体步骤
3.1 载入各种数据科学以及可视化库
例如pandas, numpy, matplotlib等库,这些库可以使用pip install进行安装。
3.2 载入数据
一般以.csv文件提供数据集,所以可以使用pandas的read_csv()进行读取,其中sep=’ '表示以空格进行划分数据。
Train_data = pd.read_csv('train.csv', sep=' ')
在载入数