Pandas数据统计函数（五）

最新推荐文章于 2022-07-26 17:07:25 发布

梦捷者

最新推荐文章于 2022-07-26 17:07:25 发布

阅读量571

点赞数 1

分类专栏： Pandas使用

本文链接：https://blog.csdn.net/qq_41706810/article/details/105923264

版权

Pandas使用专栏收录该内容

38 篇文章 12 订阅

订阅专栏

首先读取数据

import pandas as pd
fpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"
df = pd.read_csv(fpath)
# 替换掉温度的后缀℃
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')

1、汇总类统计

一下子提取所有数字列统计结果（最大值、最小值、平均值等）

# 一下子提取所有数字列统计结果
df.describe()

查看单个Series的数据（这里是平均值）

## 查看单个Series的数据
df["bWendu"].mean()

# 最高温（最大值）
df["bWendu"].max()

# 最低温（最小值）
df["bWendu"].min()

2、唯一去重和按值计数

唯一性去重（一般不用于数值列，而是枚举、分类列）

df["fengxiang"].unique()

按值计数

df["fengxiang"].value_counts()

3、相关系数和协方差

用途（超级厉害）：
1、两只股票，是不是同涨同跌？程度多大？正相关还是负相关？
2、产品销量的波动，跟哪些因素正相关、负相关，程度有多大？
来自知乎，对于两个变量X、Y：
1、协方差：衡量同向反向程度，如果协方差为正，说明X，Y同向变化，协方差越大说明同向程度越高；如果协方差为负，说明X，Y反向运动，协方差越小说明反向程度越高。
2、相关系数：衡量相似度程度，当他们的相关系数为1时，说明两个变量变化时的正向相似度最大，当相关系数为－1时，说明两个变量变化的反向相似度最大

# 协方差矩阵：
df.cov()

# 相关系数矩阵
df.corr()

# 单独查看空气质量和最高温度的相关系数
df["aqi"].corr(df["bWendu"])
df["aqi"].corr(df["yWendu"])

# 空气质量和温差的相关系数
df["aqi"].corr(df["bWendu"]-df["yWendu"])

梦捷者

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Pandas数据统计函数（五）

首先读取数据import pandas as pdfpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"df = pd.read_csv(fpath)# 替换掉温度的后缀℃df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')df.loc[:...
复制链接

扫一扫