简单查看数据
dataframe.head()
数据的维度
dataframe.shape 属性
数据的属性和类型
dataframe.dtypes 属性
统计性描述
dataframe.describe()
数据分组分布
print(data.groupby('class').size())
数据属性的相关性
- 设置数据的精度
import pandas as pd
# 显示数据的相关性
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(filename, names=names)
pd.set_option('display.width', 100)
# 设置数据的精确度
pd.set_option('precision', 2)
print(data.corr(method='pearson'))
- pearson 相关系数
dataframe.corr(method='pearson')
数据的分布分析
偏度 data.skew()
- 偏度是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性,两个统计量需要与正态分布相比较。
- 偏度 Skewness(三阶):三阶中心距除以标准差的三次方;
- 偏度为 0 表示其数据分布形态与正态分布的偏斜程度相同;
- 偏度大于 0 表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;
- 偏度小于 0 表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值;
- 偏度的绝对值数值越大表示其分布形态的偏斜程度越大。
峰度 data.kurt()
-
峰度 Kurtosis(四阶):概率密度在均值处峰值高低的特征,常定义四阶中心矩除以方差的平方,减去三。
-
峰度是描述总体中所有取值分布形态陡缓程度的统计量;
-
这个统计量需要与正态分布相比较;
-
峰度为 0 表示该总体数据分布与正态分布的陡缓程度相同;
-
峰度大于 0 表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;
-
峰度小于 0 表示该总体数据分布与正态分布相比较为平坦,为平顶峰;
-
峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。
参考资料:机器学习数学|偏度与峰度及其 Python 实现
https://blog.csdn.net/u013555719/article/details/78530879?utm_source=blogxgwz4