1. 同期群分析理论回顾
参考 https://www.jianshu.com/p/145a13355fa1
2. 构造练习数据(Excel)
我们设计一份数据, 2019年期间某店铺的成交订单明细, 包含以下4个字段:
这里使用Excel中的rand函数, 来构造随机数据, 具体操作略(用户id需要重复)
最终, 获取10万条随机的数据
3. 数据处理思路
- 生成每月新增用户明细
- 生成每个月份的用户明细
- 将上面生成的数据按用户id关联生成总表
- 总表按月份聚合
- 调整格式
4. 用pandas实现整个处理过程
-
导入相关模块, 并加载数据
date已经是datetime格式了
-
需要按月份来做同期群分析, 所以新增一列, 这里就简单取该日期的1号
用到了datetime模块中date类的replace方法
-
生成每月新增的用户明细
用pandas中的groupby, 按user_id取dt最小值聚合, 最后加reset_index()是为保留dataframe格式
-
生成每个月的客户明细(以2019-02为例)
df.loc切片, datetime.date()构造日期
-
用merge关联df_00 与 df_1902
-
最终重复4.5步骤
-
重复的工作让电脑去做, 定义一个函数, 参数是dataframe
-
通过序号的循环, 生成最终符合格式的数据
5. 其他思路与方法
待补充