2021-06-04笔记

最新推荐文章于 2024-05-20 17:44:57 发布

baidu_39426128

最新推荐文章于 2024-05-20 17:44:57 发布

阅读量132

点赞数

分类专栏：笔记文章标签： pandas python

本文链接：https://blog.csdn.net/baidu_39426128/article/details/117573241

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

这篇博客详细介绍了Pandas库中GroupBy的功能和用法，包括迭代操作、滑动窗口、日期运算、数据分组保存、统计缺失值、构造新列、数据概率分布可视化等。此外，还列举了如agg、all、any、corr、count等一系列GroupBy方法的应用，帮助理解如何在DataFrame上进行聚合操作。

摘要由CSDN通过智能技术生成

groupby
https://www.cnblogs.com/zhangzhangwhu/p/7219651.html
GroupBy对象支持迭代操作，会产生一个由分组变量名和数据块组成的二元元组：
滑动窗口
blog
rolling(window=?)
关于日期的一些运算
groupby结果保存成新的dataframe
统计缺失https://blog.csdn.net/littleboy__/article/details/105841802
构造新的列
 isin(list)判断
 groupby后排序取值
 构造新列——是否含有某个字符
 groupby——组内的数据概率分布可视化
#df = grouped.get_group(‘Female’).reset_index()
#此时得到的df是dataframe格式

数据框（DataFrame）与序列（Series）不一致函数

Function /Describe 描述
DataFrameGroupBy.agg(arg,?*args,?**kwargs) -> 使用输入函数或 dict 的{ column-> 聚合
DataFrameGroupBy.all([axis,?bool_only,?..])-> 返回在请求的轴上是否所有元素都为 True
DataFrameGroupBy.any([axis,?bool_only,?..]) -> 返回在所请求的轴上是否有任何元素为 True

DataFrameGroupBy.corr([method,?min_periods]) ->计算列的成对相关性，不包括 NA/null 值
DataFrameGroupBy.count() DataFrameGroupBy.count () 计算组的计数，不包括缺少的值
DataFrameGroupBy.cov([min_periods]) 计算列的成对协方差，不包括 NA/null 值
DataFrameGroupBy.cummax([axis,?skipna]) ([ axis，? skipna ]) Return cumulative max over requested axis. 返回请求轴上的累积最大值
DataFrameGroupBy.cummin([axis,?skipna]) ([ axis，? skipna ]) Return cumulative minimum over requested axis. 返回请求轴上的累积最小值
DataFrameGroupBy.cumprod([axis]) ([ axis ]) Cumulative product for each group 每组累积乘积
DataFrameGroupBy.cumsum([axis]) DataFrameGroupBy.cumsum ([ axis ]) Cumulative sum for each group 每组累加
DataFrameGroupBy.describe([percentiles,?..]) 生成各种摘要统计信息，不包括 NaN 值
DataFrameGroupBy.diff([periods,?axis]) 一次差分
DataFrameGroupBy.ffill([limit]) DataFrameGroupBy.ffill ([ limit ]) Forward fill the values 向前填充值
DataFrameGroupBy.fillna([value,?method,?..]) ([ value，? method，? . . ]) 使用指定的方法填充 NA/NaN 值
DataFrameGroupBy.hist(data[,?column,?by,?..]) 使用 matplotlib/pylab 绘制 DataFrame 系列的直方图
DataFrameGroupBy.idxmax([axis,?skipna]) ([ axis，? skipna ]). 最大值第一次出现的索引
DataFrameGroupBy.idxmin([axis,?skipna]) ([ axis，? skipna ]). 最小值第一次出现的索引
DataFrameGroupBy.mad([axis,?skipna,?level]) 返回所请求轴的值的平均平均差
DataFrameGroupBy.pct_change([periods,?..]) 给定周期数的变化百分比
DataFrameGroupBy.plot groupby 对象的.plot 属性
DataFrameGroupBy.quantile([q,?axis,?..]) 在请求的轴上给定分位数的返回值，
DataFrameGroupBy.rank([axis,?method,?..]) 沿轴计算数字数据的等级(1到 n)
**DataFrameGroupBy.resample(rule,?*args,?kwargs) 在使用 TimeGrouper 时提供重采样）
DataFrameGroupBy.shift([periods,?freq,?axis]) Shift ([ period，? freq，? axis ]) 根据周期观察来改变每个组
DataFrameGroupBy.size() Compute group sizes 计算组大小
DataFrameGroupBy.skew([axis,?skipna,?level,?..]) 在请求的轴上返回无偏差的倾斜
DataFrameGroupBy.take(indices[,?axis,?..]) Analogous to ndarray.take
DataFrameGroupBy.tshift([periods,?freq,?axis]) T 移动时间索引，如果可用，使用索引的频率？