Pandas数据统计函数(五)

首先读取数据
import pandas as pd
fpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"
df = pd.read_csv(fpath)
# 替换掉温度的后缀℃
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')
1、汇总类统计
  • 一下子提取所有数字列统计结果(最大值、最小值、平均值等)
# 一下子提取所有数字列统计结果
df.describe()
  • 查看单个Series的数据(这里是平均值)
## 查看单个Series的数据
df["bWendu"].mean()

# 最高温(最大值)
df["bWendu"].max()

# 最低温(最小值)
df["bWendu"].min()
2、唯一去重和按值计数
  • 唯一性去重(一般不用于数值列,而是枚举、分类列)
df["fengxiang"].unique()
  • 按值计数
df["fengxiang"].value_counts()
3、相关系数和协方差

用途(超级厉害):
1、两只股票,是不是同涨同跌?程度多大?正相关还是负相关?
2、产品销量的波动,跟哪些因素正相关、负相关,程度有多大?
来自知乎,对于两个变量X、Y:
1、协方差:衡量同向反向程度,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。
2、相关系数:衡量相似度程度,当他们的相关系数为1时,说明两个变量变化时的正向相似度最大,当相关系数为-1时,说明两个变量变化的反向相似度最大

# 协方差矩阵:
df.cov()

# 相关系数矩阵
df.corr()

# 单独查看空气质量和最高温度的相关系数
df["aqi"].corr(df["bWendu"])
df["aqi"].corr(df["yWendu"])

# 空气质量和温差的相关系数
df["aqi"].corr(df["bWendu"]-df["yWendu"])
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值