很多时候我们处理Excel表格的时候 会碰到以下情况
如上图所示 有很多列是一样的 还有不一样的 我们有时候处理数据会要求保留相同的 对不同的进行相加 相当于去重
这个时候pandas的drop_duplicates会显得比较笨重一点
最好的方法是使用类似于Excel中的透视表
在这里我们可以看到此数据a,b,c,d,e都是相同的 其它的都是不同的 按照G列进行区分 因为G列较有说明意义 这里因为是专业分布 所以我是以G列为主 其它视情况而定哦
import pandas as pd
data = pd.read_excel('xxx.xlsx')
data.head()
data = pd.pivot_table(data, index=['a','b','c','d','e','g'], values=['f','h','i','j','k','l'],aggfunc='sum')
这样就达到我们想要的结果了index是我们含有相同数据或文字的列名,values是我们所要处理的值的列,aggfunc()是我们要怎样处理 也可以是减/计数(count)/平均值(mean)等等 有关参数可参考pandas private_table函数