这三天的任务是做数据分析,主要是利用python的pandas以及可视化工具matplotlib、seabon,查看数据分布情况。
pandas中有一些非常好用的函数,可以快速得到数据的统计信息。比如,describe()来各列数据的相关统计量;info()来查看各列数据类型;因为之前有做过数据处理方面的事情,所以对这一部分相对来说比较清楚,花费时间不多。
这次学到的两个新的知识点,就是查看数据分布的skewness and kurtosis两个度量值。
偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫负偏分布,其偏度<0)
kurtosis=3(峰度),峰度,又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。随机变量的峰度计算方法为:随机变量的四阶中心矩与方差平方的比值。峰度包括正态分布(峰度值=3),厚尾(峰度值>3),瘦尾(峰度值<3)
本次赛题的数据的Skewness为0.917596,Kurtosis为 -0.825276,说明数据是一个右偏,瘦尾数据。