Pandas中分组计数且不计重复的实现
在对dataframe进行分析的时候会遇到需要分组计数,计数的column中属性有重复,但又需要仅对不重复的项计数(即重复N次出现的项只计1次)。函数如下:
dataframe.groupby([‘分组的列名’]).需要计数的列名.nunique()
举例:数组“data”如下:
StoreID | Sales | SalesDate | Channel |
---|---|---|---|
A | 100 | 2018/1/1 | 01 |
A | 90 | 2018/1/1 | 02 |
A | 110 | 2018/1/2 | 01 |
B | 82.2 | 2018/1/1 | 01 |
B | 90 | 2018/1/2 | 02 |
如果要按StoreID来统计每一家店的营业日期数(可以通过不计重复的count “SalesDate”来完成)
代码如下:
data.groupby(['StoreID']).SalesDate.nunique()