Task 2 数据分析(EDA-数据探索性分析)
-
简略观察数据(head().append(tail())首尾数据 + shape)
-
数据总览:describe() 熟悉数据的相关统计量 + info() 熟悉数据类型
-
判断数据缺失和异常:
缺失值:data.isnull().sum()——查看每列的存在nan情况
异常值检测(转换为nan/按照某种规律进行填充)
-
了解预测值的分布
(如果是分类问题,value_counts()可以观察不同标签的数量情况)
-
Seaborn是基于matplotlib的Python可视化库。 但应强调的是,应该把Seaborn视为matplotlib的补充,而不是替****代物。
它提供了一个高级界面来绘制有吸引力的统计图形。Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,不需经过大量的调整就能使你的图变精致。
displot()集合了matplotlib的hist()与核函数估计kdeplot的功能,增加了rugplot分布观测条显示与利用scipy库fit拟合参数分布的新颖用途。
通过hist和kde参数调节是否显示直方图及核密度估计(默认hist,kde均为True)
fit:控制拟合的参数分布图形,能够直观地评估它与观察数据的对应关系(黑色线条为确定的分布)
fit=norm 拟合标准正态分布
bins修改箱子个数
核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。通过核密度估计图可以比较直观的看出数据样本本身的分布特征。
rag:控制是否生成观测数值的小细条
总体分布概况
查看skewness & kurtosis (偏度/峰值)
查看预测值的具体频数