点击蓝字
关注我们
01
导语
继2-3期完成了数据探索,了解数据分布后,我们紧接着可以通过数据聚合来对数据进一步的组合分析以获得有价值的信息点。
话不多说,接着开始练习吧。
02
数据聚合-groupby
Groupby在SQL中经常用到,在Excel里是多种函数体现,比如求和是sum,计数是count。
pandas的groupby和SQL的类似。需要明确以什么维度聚合,以及聚合的方式是sum求和,抑或max求最值,还是count计数。
我们下面仍然用spotify的数据来展示应用。
03
哪位艺术家入榜歌曲最多
0 Advanced issue found▲0 Advanced issue found▲了解到基础数据的内容后(忘记数据集样子的小伙伴可以通过上方专辑查看前几期内容噢~),我们如果想获取哪位艺术家的入榜歌曲最多,只需要对原始数据集按照艺术家名字聚合,而聚合数据为歌曲名去重计数。
所以计算方式如下:
![59018f624514113d4b6947708dde25b9.png](https://i-blog.csdnimg.cn/blog_migrate/d7374a814995e03c588d3fdd2b0700db.png)
pandas的groupby语法为&#x