dataframe 众数的方法_pandas 第11篇:DataFrame-数据处理(分组、聚合、窗口、相关、统计)...

本文详细介绍了Pandas DataFrame在数据处理中的关键操作,包括分组和聚合使用groupby与agg函数,窗口函数如rolling、expanding和ewm,计算相关性的corr方法,以及一系列统计函数如min、max、mode等。这些工具对于数据分析至关重要。
摘要由CSDN通过智能技术生成

数据处理的目的是为了数据分析,下面分享常用的数据分析中会用到的函数。

一,分组和聚合

groupby用于对数据分组,分组之后可以直接调用聚合函数求值;agg()函数把分组和调用聚合函数集成到一个函数来实现:

DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)

DataFrame.agg(self, func, axis=0, *args, **kwargs)

二,窗口

rolling()是指按照窗口滚动求值,expanding()是指依次递增1,计算累加;ewm指的是指数加权滚动平均:

DataFrame.rolling(self, window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)

DataFrame.expanding(self, min_periods=1, center=False, axis=0)

DataFrame.ewm(self, com=None, span=None, halflife=None, alpha=None, min_periods=0, adjust=True, ignore_na=False, axis=0)

三,相关

计算两对列值之间的相关性:

DataFrame.corr(self, method='pearson', min_periods=1)

method:计算相关性的方法,有效值是 ‘pearson’, ‘kendall’, ‘spearman’ 或 callable

min_periods:每对列必须具有有效结果的最小观察数量,目前只适用于:Pearson 和 Spearman相关性。

四,统计函数

常用的统计函数:

min、max:最小值、最大值

mode:众数

var:方差

std:标准差

sum:累加和

mean:均值

mad:绝对值的均值

median:中位数

quantile:百分位数

count:计数

cumsum:累加求和

cumprod:累积乘积

cummin、cummax:累积最小值、累积最大值

参考文档:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值