本文摘要:
1.汇总类统计
2.唯一去重和按值计数
3.相关系数和协方差
汇总类统计
# 统计所有数字列结果
df.describe()
统计结果类似下图,索引分别表示:
单词 | 含义 |
---|---|
count | 总行数 |
mean | 平均数 |
std | 标准差 |
min | 最小值 |
25% 50% 75% | 分位数 |
max | 最大值 |
# 查看单列Series的数据
df['bWendu'].mean()
df['bWendu'].max()
df['bWendu'].min()
唯一去重和按值计数
唯一性去重,一般不用于数值列,而是枚举、分类列
df['tianqi'].unique()
df['fengxiang'].unique()
# 返回array对象
按值计数,前面我们已经见过了
df['tianqi'].value_counts()
df['fengxiang'].value_counts()
# 返回Series对象,键为某一类别,值为数量
相关系数和协方差
用途:
# 协方差矩阵
df.cov()
# 相关系数矩阵
df.corr()
# 单独查看两列的相关系数
df['aqi'].corr(df['yWendu'])
df['aqi'].corr(df['bWendu'] - df['yWendu'])
*此文仅为个人笔记