最近参加一个比赛,需要统计一些数据,使用了pandas。数据样例如下图所示:
user_id |
industry |
click_times |
0 | 1 | 2 |
0 | 1 | 1 |
0 | 2 | 2 |
1 | 1 | 2 |
1 | 2 | 6 |
这样的数据记录一共有3000w+,如果在没使用pandas的相关的函数的时候,采用直接遍历计算等方式,程序跑了三天没有出结果。
想统计的数据:
统计每一个用户在每一种industry上点击次数的总和,统计结果样式如下图:
user_id |
industry |
click_sum |
0 | 1 | 3 |
0 | 2 | 2 |
1 | 1 | 2 |
1 | 2 | 6 |
对第一行