merge函数_python三步法:“加前缀-合并数据集-transform方法传入函数”

33eab9163ad7ecf53c2671553a1292c3.png

python聚合只不过是分组运算的其中一种而已。它是数据转换的一个特例,也就是说,它接受能够将一维数组简化为标量值的函数。其中,transform和apply方法,它们能够执行更多其他的分组运算。

In [106]: pd.merge(df,k1_means,left_on='key1',right_index=True)Out[106]: data1     data2     key1   key2   mean_data1  mean_data20   1.044009  0.965138  a      one    -0.250431   0.3573741   -1.255855 0.459189  a      two    -0.250431   0.3573744   -0.539447 -0.352206 a      one    -0.250431   0.3573742   0.593060  0.379310  b      one    -0.742433   0.7716833   -2.077925 1.164057  b      two    -0.742433   0.771683

字段名前缀:add_prefix()

In [106]: pd.merge(df,k1_means,left_on='key1',right_index=True)Out[106]: data1     data2     key1   key2   mean_data1  mean_data20   1.044009  0.965138  a      one    -0.250431   0.3573741   -1.255855 0.459189  a      two    -0.250431   0.3573744   -0.539447 -0.352206 a      one    -0.250431   0.3573742   0.593060  0.379310  b      one    -0.742433   0.7716833   -2.077925 1.164057  b      two    -0.742433   0.771683

合并数据集

In [106]: pd.merge(df,k1_means,left_on='key1',right_index=True)Out[106]: data1     data2     key1   key2   mean_data1  mean_data20   1.044009  0.965138  a      one    -0.250431   0.3573741   -1.255855 0.459189  a      two    -0.250431   0.3573744   -0.539447 -0.352206 a      one    -0.250431   0.3573742   0.593060  0.379310  b      one    -0.742433   0.7716833   -2.077925 1.164057  b      two    -0.742433   0.771683

transform方法

cdd7bed5a179ac2717875a84fda816b8.png

不难看出,transform会将一个函数应用到各个分组,然后将结果放置到适当的位置上。结果各分组产生的是一个标量值,则该值就会被广播出去。现在,假设你希望从各组中减去平均值。为此,我们先创建一个距平化函数(demeaning function),然后将其传给transform。

距平化函数

d5d808551006fd4eeaf4899137068b75.png

可以检查一下demeaned现在的分组平均值是否为0:

In [115]: demeaned.groupby(key).mean()Out[115]: a            b            c            d            eone 0.000000e+00 5.551115e-17 5.551115e-17 1.480297e-16 0.0two 1.387779e-17 0.000000e+00 0.000000e+00 0.000000e+00 0.0

分组距平化操作还可以通过apply实现。

python好书推荐

推荐一本python好书,初学者必备,小编已读,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python 中,可以使用 pandas 库来合并数据框。数据框合并通常包括两个方面:连接和聚合。 连接指的是将两个数据框按照某些列进行合并,有以下几种方式: 1. 内连接(inner join):只保留两个数据框中都存在的行。 2. 左连接(left join):将左边的数据框所有行都保留,将右边的数据框中匹配到的行合并到左边的数据框中。 3. 右连接(right join):将右边的数据框所有行都保留,将左边的数据框中匹配到的行合并到右边的数据框中。 4. 外连接(outer join):将两个数据框所有的行都保留,空值用 NaN 填充。 聚合指的是根据某些列对数据框进行分组,并计算每组的统计量,如均值、中位数等。可以使用 pandas 中的 groupby 方法来实现。 下面是一个示例代码,展示了如何进行数据框合并和聚合: ```python import pandas as pd # 创建两个数据框 df1 和 df2 df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]}) df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]}) # 内连接 inner_join = pd.merge(df1, df2, on='key', how='inner') print('内连接:\n', inner_join) # 左连接 left_join = pd.merge(df1, df2, on='key', how='left') print('左连接:\n', left_join) # 右连接 right_join = pd.merge(df1, df2, on='key', how='right') print('右连接:\n', right_join) # 外连接 outer_join = pd.merge(df1, df2, on='key', how='outer') print('外连接:\n', outer_join) # 根据 key 列进行分组,并计算每组的均值和中位数 grouped = outer_join.groupby('key').agg({'value': ['mean', 'median']}) print('分组聚合:\n', grouped) ``` 输出结果如下: ``` 内连接: key value_x value_y 0 B 2 5 1 D 4 6 左连接: key value_x value_y 0 A 1 NaN 1 B 2 5.0 2 C 3 NaN 3 D 4 6.0 右连接: key value_x value_y 0 B 2.0 5 1 D 4.0 6 2 E NaN 7 3 F NaN 8 外连接: key value_x value_y 0 A 1.0 NaN 1 B 2.0 5.0 2 C 3.0 NaN 3 D 4.0 6.0 4 E NaN 7.0 5 F NaN 8.0 分组聚合: value mean median key A 1.0 1.0 B 3.5 3.5 C 3.0 3.0 D 5.0 5.0 E 7.0 7.0 F 8.0 8.0 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值