滴滴AB test面试题及运营情况分析
从和鲸上看到了一个滴滴数据集,看介绍说的是数据来自滴滴出行内部,也有小道消息说是面试题?那我们来试一下。
数据字典
上图为两个数据集的数据字典,可以看出来维度比较少,进行AB test的test数据集是58行,运营情况分析的city数据集是90行。两者皆无空值。
AB test分析
数据清洗及特征工程
数据量虽少,但好在没有缺失值。先将数据拆分为参照组和实验组,这边我用group_A代替参照组,group_B代替实验组。
group_A = test.query("group == 'control'")
group_B = test.query("group == 'experiment'")
简单的看一下group_A几个维度随着日期变化的趋势。
这么看起来,好像有点牛逼?每天的指标都是上升的,或者说数据集里面储存的是累计数据?我们将他清洗一下成为每日数据。
for col in ['trips','requests','canceled requests','gmv']:
group_A[f"c_{col}"]=group_A[col].diff().fillna(group_A[col].min())
# 计算每天的每单优惠券金额
group_A['coupon_consum'] = (group_A[