花瓣长度和花瓣宽度散点图鸢尾花_文科生学 Python 系列 11:Pandas 鸢尾花案例:groupby, agg, apply...

本文介绍了Pandas的groupby方法,通过鸢尾花数据集展示如何进行分组运算,包括使用内置函数计算最大值,自定义函数计算数值范围,以及使用apply方法提取样本。文章强调了不同聚合函数的应用场景,并提供了错误示例以说明agg方法的限制。
摘要由CSDN通过智能技术生成

第六课 - Pandas 进阶

本课内容:
数据的分组和聚合
pandas groupby 方法
pandas agg 方法
pandas apply 方法
案例讲解
鸢尾花案例
婴儿姓名案

数据的分组&聚合 -- 什么是 groupby 技术?

在数据分析中,我们往往需要在将数据拆分,在每一个特定的组里进行运算。比如根据教育水平和年龄段计算某个城市的工作人口的平均收入。

pandas 中的 groupby 提供了一个高效的数据的分组运算。

我们通过一个或者多个分类变量将数据拆分,然后分别在拆分以后的数据上进行需要的计算

我们可以把上述过程理解为三部:

1.拆分数据(split)
2.应用某个函数(apply)
3.汇总计算结果(aggregate)

下面这个演示图展示了“分拆-应用-汇总”的 groupby 思想

d74dd3874ed399b5b2a4aca61a6bfde5.png

上图所示,分解步骤:

Step1 :数据分组—— groupby 方法 Step2 :数据聚合:
使用内置函数——sum / mean / max / min / count等
使用自定义函数—— agg ( aggregate ) 方法
自定义更丰富的分组运算—— apply 方法

案例1: 让我们来回顾下经典的 iris 数据
鸢尾花卉数据集,来源 UCI 机器学习数据集

四个特征被用作样本的定量分析,它们分别是花萼(sepal)和花瓣(petal)的长度(length)和宽度(width)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值