Datawhale-Pandas-Task04-分组

最新推荐文章于 2024-03-03 10:05:29 发布

JeevanYue

最新推荐文章于 2024-03-03 10:05:29 发布

阅读量136

点赞数

分类专栏： Python学习笔记文章标签： python pandas r语言

本文链接：https://blog.csdn.net/m0_53591643/article/details/111713023

版权

这篇博客详细介绍了Pandas中的分组操作，包括分组模式、聚合函数如agg和apply的使用，以及如何进行数据变换和过滤。讨论了Pandas与R在分组操作上的区别，如偏度计算、计数函数和自定义聚合函数的应用。同时还提供了练习题，加深读者对分组概念的理解。

摘要由CSDN通过智能技术生成

Group Data
Group by分组主要涉及到下面三个操作：

分组按需求将数据分成若干组
运算对每个分组进行单独的运算
合并对运算的结果进行合并

分组模式及其对象

learn_pandas数据集

df = pd.read_csv('data/learn_pandas.csv')

df <- read.csv('data/learn_pandas.csv', stringsAsFactors = FALSE)

分组的一般模式

# Python
df.groupby('Gender')['Height'].mean()

# R
df %>% 
  group_by(Gender) %>% 
  summarise(Height = mean(Height, na.rm = TRUE))

# SQL
select 	Gender
		,avg(Height) as Height_avg
from learn_pandas
group by Gender

分组依据的本质

# Python
df.groupby(['School', 'Gender'])['Height'].mean()

# R
df %>% 
  group_by(School, Gender) %>% 
  summarise(Height = mean(Height, na.rm = TRUE))

# Python
df.Weight.mean()
condition = df.Weight > df.Weight.mean()
df.groupby(condition)['Height'].mean()

df.groupby(df.Weight > df.Weight.mean())['Height'].mean()

# R
mean(df$Weight, na.rm = TRUE)
condition <- df$Weight > mean(df$Weight, na.rm = TRUE)
df %>% 
  group_by(Weight = Weight > mean(Weight, na.rm = TRUE)) %>% 
  summarise(Height = mean(Height, na.rm = TRUE), n())

# Python
item = np.random.choice(list('abc'), df.shape[0])
df.groupby(item)['Height'].mean()

df.groupby([condition, item])['Height'].mean()

# R
item <- py$item
df %>% 
  group_by(item = item) %>% 
  summarise(Height = mean(Height, na.rm = TRUE))

df %>% 
  group_by(condition, item = item) %>% 
  summarise(Height = mean(Height, na.rm = TRUE))

# Python
df[['School', 'Gender']].drop_duplicates()

df.groupby([df['School'], df['Gender']])['Height'].mean()

# R
df %>% 
  distinct(School, Gender)

df %>% 
  group_by(School, Gender)

最低0.47元/天解锁文章

JeevanYue

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale-Pandas-Task04-分组

分组
复制链接

扫一扫

专栏目录