起初的数据是这样的
想将page_no这一列拆分成多个列,然后将其中的值都作为列名。
想要做成的结果如下图(也就是统计每个id下各个page_no出现的次数)
实现的思路是先对page_no这一列进行one-hot编码,将一列变为多列,然后再用cishu列与之相乘,最后进行groupby之后加和,就得到了最终结果。
代码如下:
df = pd.get_dummies(TestA_beh['page_no'])
TestA_beh = pd.concat([TestA_beh,df],axis=1)
col_page = ['AAO', 'BWA', 'BWE', 'CQA', 'CQB','CQC', 'CQD', 'CQE', 'CTR',
'EGA', 'EGB', 'FDA', 'FLS', 'FTR', 'GBA','JF2', 'JJD', 'JJK',
'LC0', 'LCT', 'MSG', 'MTA', 'SYK', 'SZA', 'SZD','TRN', 'XAG', 'XAI', 'ZY1']
for page in col_page:
TestA_beh[page] = TestA_beh[page]*TestA_beh['cishu']
del TestA_beh['page_no']
del TestA_beh['cishu']
TestA_beh = TestA_beh.groupby(['id'],as_index = False).sum()
原文链接:https://blog.csdn.net/hcq15900382130/article/details/105878750