pandas dataframe 一行变多行 (query pv统计term pv)

关键字:

  • jieba切词
  • expand 一列变多列
  • stack 列转行
  • group by + aggr 相同term的pv求和

上效果:

     query       pv
0    今日新鲜事    10000
1    今日头条    100
2    北京天气    2000
3    上海天气    3000
     term    pv
0    上海    3000
1    今日    10100
2    北京    2000
3    天气    5000
4    头条    100
5    新鲜事    10000

 

上代码:

import pandas as pd
import numpy as np
import jieba

df = pd.DataFrame({'query':['今日新鲜事','今日头条','北京天气','上海天气'],
                   'pv':[10000,100,2000,3000]})

#先用jieba切词
df['query'] = df['query'].apply(lambda x: ','.join(jieba.cut(x)))

df = (df.set_index(['pv'])['query']
       .str.split(',', expand=True)  # query切分并expand成多列
       .stack()   # 列转行
       .reset_index(level=1, drop=True) # 删除列对齐后的空值
       .reset_index(name='term')
       .groupby('term').agg({'pv': np.sum})  # pv按term求和
       .reset_index())

 

转载于:https://www.cnblogs.com/liyuxia713/p/9720090.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值