让df作为我们来自熊猫的测试数据框:import pandas as pd
import numpy as np
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
'B' : ['one', 'one', 'two', 'three','two', 'two', 'one', 'three'],
'C' : np.random.randn(8),
'D' : np.random.randn(8)})
我现在要做的实际上是按列A分组,类似于:
^{pr2}$
那很好。现在,我不想使用sum(),而是要应用一个自己的函数来高效地总结数据。在
R的等效值为:require(plyr); require(dplyr)
df = data.frame(A = c('foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'),
B = c('one', 'one', 'two', 'three','two', 'two', 'one', 'three'),
C = rnorm(8),
D = rnorm(8))
例如,此函数名为myfun:myfun
然后:df %>%
group_by(A) %>%
summarise(result = myfun(C))
我希望问题足够清楚。非常感谢!在