#看哪个网站对各大战区贡献CTM业绩最多
qd_cdf_eachnet=qd_cdf[['Root Id','成交类型','成交网站','月份','单数(拆分)',\
'业绩(拆分)','成交区董']].drop_duplicates().\
groupby(['成交区董','成交网站']).\
agg({'单数(拆分)':sum,'业绩(拆分)':sum})
qd_cdf_eachnet['业绩(拆分)'].groupby(level=0, group_keys=False).nlargest(6)
- 为什么使用
df_agg['count'].groupby(level=0)
,而不是df_agg.groupby(by=['count'], level=0)
?
因为nlargest()
函数不能应用于DataFrameGroupBy对象,但可以用于SeriesGroupBy对象。 - 为什么
.groupby()
里边需要level=0
?
因为"by"和"level"在groupby函数至少得有一个。 - 不设置
group_keys=False
会怎样?
会有2个"job"列
另一种方法:
cdf=df[['Root Id','成交网站','成交区董','成交类型','单数(拆分)','业绩(拆分)']].\
drop_duplicates().groupby(['成交区董','成交网站']).\
agg({'单数(拆分)':sum,'业绩(拆分)':sum})
cdf.reset_index().sort_values(by=['成交区董','业绩(拆分)'],\
ascending=[True,False])