今天我们说一下Pandas数据统计函数。
import pandas as pd
1. 汇总类统计
df.describe()#一下子提取所有数字列统计结果
df['bWendu'].mean() #获取某一列的均值
df['bWendu'].max() #获取某一列的最大值
df['bWendu'].min() #获取某一列的最小值
2. 唯一去重和按值计算
2.1 唯一性去重
一般不用于数值列,而用于枚举、分类列
df['fengxiang'].unique()
2.2 按值计算
df['fengxiang'].value_counts()
3. 相关系数和协方差
协方差: 衡量同向反向程度,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向变化,协方差越大说明反向程度越高。
相关系数: 衡量相似程度,当他们的相关系数为1时,说明两个变量变化时的正向相似度最大;当相关系数为-1时,说明两个变量变化的反向相似度最大。
# 协方差矩阵
df.cov()
#相关系数矩阵
df.corr()
#单独查看空气质量和最高温度的相关系数
df['aqi'].corr(df['bWendu])