Pandas(五):数据统计函数+数据排序

准备工作

# 读取天气
import pandas as pd
df = pd.read_csv("beijing_tianqi_2018.csv")
# 读取前三行
df.head(3)

在这里插入图片描述

# 更改温度后缀,替换为数字型
# 替换掉温度的后缀℃
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')
df.head(3)

在这里插入图片描述

一、汇总类统计

# 一下子提取所有数字列统计结果
df.describe()

在这里插入图片描述
根据这些属性,我们也可以单独的获取某个series的数据值

df["bWendu"].mean()
df["bWendu"].max()
df["bWendu"].min()
df["bWendu"].std()

二、唯一去重和按值计数

函数名作用
df[“xx”].unique()以 数组形式(numpy.ndarray)返回列的所有唯一值,即查询出xx列 的唯一值
df[“xx”].nunique()查询出xx列的唯一值的数量
df[“xx”].value_counts()查询出xx列每个值出现的个数

举例

df["fengxiang"].unique()
# array(['东北风', '北风', '西北风', '西南风', '南风', '东南风', '东风', '西风'], dtype=object)

df["fengxiang"].nunique()
# 8

df["fengxiang"].value_counts()

在这里插入图片描述

三、相关系数和协方差

  • 两只股票,是不是同涨同跌?程度多大?正相关还是负相关?
  • 产品销量的波动,跟哪些因素正相关、负相关,程度有多大?

来自知乎,对于两个变量X、Y:
协方差:衡量同向反向程度,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。
相关系数:衡量相似度程度,当他们的相关系数为1时,说明两个变量变化时的正向相似度最大,当相关系数为-1时,说明两个变量变化的反向相似度最大

1. 协方差矩阵:

df.cov()

在这里插入图片描述

2. 相关系数矩阵

df.corr()

在这里插入图片描述
3.单独查看series的相关系数

 单独查看空气质量和最高温度的相关系数
 df["aqi"].corr(df["bWendu"]) #0.07706705916811077

# 空气质量和温差的相关系数
df["aqi"].corr(df["bWendu"]-df["yWendu"]) #0.21652257576382047

四、数据排序

1.series的排序

Series.sort_values(ascending=True, inplace=False)

参数说明:

  • ascending:默认为True升序排序,为False降序排序
  • inplace:是否修改原始Series,True修改原始数据

注意: 中文也可以排序

举例:

df["aqi"].sort_values(ascending=False)

在这里插入图片描述

2.DataFrame的排序:

DataFrame.sort_values(by, ascending=True, inplace=False)

参数说明:

  • by:字符串或者List<字符串>,单列排序或者多列排序
  • ascending:bool或者List
  • inplace:是否修改原始DataFrame

①单列排序

df.sort_values(by="aqi")

在这里插入图片描述

②多列排序

# 按空气质量等级、最高温度排序,默认升序
df.sort_values(by=["aqiLevel", "bWendu"])

在这里插入图片描述

# 两个字段都是降序
df.sort_values(by=["aqiLevel", "bWendu"], ascending=False)

在这里插入图片描述

# 分别指定升序和降序
df.sort_values(by=["aqiLevel", "bWendu"], ascending=[True, False])

在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Pandas 是一个强大的数据分析工具,它提供了许多常用的函数来处理和分析数据。下面是一些常用的 Pandas 数据分析函数: 1. 读取数据: - `pd.read_csv()`:读取以逗号分隔的文本文件 - `pd.read_excel()`:读取 Excel 文件 - `pd.read_sql()`:从 SQL 数据库中读取数据 2. 数据预览和基本信息: - `df.head()`:返回数据集的前几行,默认返回前 5 行 - `df.tail()`:返回数据集的后几行,默认返回后 5 行 - `df.info()`:查看数据集的基本信息,包括列名、数据类型、非空值数量等 - `df.describe()`:显示数据集的基本统计信息,如平均值、标准差、最小值、最大值等 3. 数据选择和过滤: - `df.loc[]`:按行标签和列标签选择数据 - `df.iloc[]`:按行号和列号选择数据 - `df[df['column'] > value]`:根据条件选择数据 4. 数据清洗和处理: - `df.dropna()`:删除包含缺失值的行或列 - `df.fillna(value)`:用指定的值填充缺失值 - `df.drop_duplicates()`:删除重复的行 - `df.replace(old_value, new_value)`:替换指定值 5. 数据排序和排名: - `df.sort_values(by='column', ascending=True)`:按指定列的值进行升序排序 - `df.rank()`:对数据进行排名 6. 数据聚合和分组: - `df.groupby('column').mean()`:按指定列进行分组,并计算每个组的平均值 - `df.groupby('column').sum()`:按指定列进行分组,并计算每个组的总和 - `df.pivot_table(values='value', index='index_column', columns='column')`:创建数据透视表 这只是一些常用的 Pandas 数据分析函数,还有很多其他函数可以根据具体需求使用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张烫麻辣亮。

谢谢老板支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值