import pandas as pd
import numpy as np
"""
1.汇总类统计
2.唯一去重和按值计算
3.相关系数和协方差
"""
path = './test.csv'
df = pd.read_csv(path)
# 去除温度的C符号,并转为整数
df.loc[:,'bwendu'] = df['bwendu'].astype(str).str.repalce('C','').astype('int32')
df.loc[:,'ywendu'] = df['ywendu'].astype(str).str.replace('C','').astype('int32')
# 1.汇总类统计
# 提取所有列的统计结果
value_1 = df.describe()
# 查看单个series的数据
value_2 = df['bwendu'].mean()
# 查看最高温
value_3 = df['bwendu'].max()
# 查看最低温
value_4 = df['bwendu'].min()
# 2.唯一性去重(一般不用于数值列,用于分类列,枚举列)
value_5 = df['bwendu'].unique()
# 按值计数
value_6 = df['bWendu'].value_counts()
# 3.相关系数矩阵
value_7 = df.corr()
# 协方差矩阵
value_8 = df.cov()
# 单独查看空气质量和最高温度的相关系数
value_9 = df['api'].corr(df['bwendu'])
# 单独查看空气质量和温差的相关系数
value_10 = df['api'].corr(df['bwendu']-df['ywendu'])
Pandas的三种数据统计函数_5
最新推荐文章于 2024-07-31 14:30:10 发布