本文以‘o2o优惠券线下核销数据集’的分析全过程为例,展示数据分析的全过程
数据清洗工具:jupyter notebook
数据分析工具:datagrip,Excel
可视化图表工具:tableau
分析类型:描述性分析,诊断分析
分析方法:漏斗分析,RFM用户价值分析,AARRR分析,假设检验分析。
目录
4.5.2 分别查询R,F的最大值,最小值以及各值数量分布情况
4.5.3 根据R,F值最大值和最小值的区间设计本次的打分标准,计算R,F的值
一.数据清洗
1.1数据集来源
阿里天池:O2O优惠券使用预测数据集_Tianchi Datasets (aliyun.com)
1.2数据说明
该数据集提供2016年1月1日至2016年6月30日的真实线上和线下用户消费数据。研究人员预计将预测客户在收到优惠券后 15 天内兑换优惠券的概率。
线下消费及优惠券表(offline_train.csv.zip)
1.3数据导入
1.4查看缺失值
#通过查看缺失值发现Coupon_id,Discount_rate及Date_received的缺失值数量一样,Coupon_id表示优惠券id,当它为null时,说明没有这张优惠券,那么Discount_rate,Date_received也没有意义,所以存在三者同时为null的情况是合理的。
#用0替代Coupon_id,Discount_rate的缺失值,用fillna()对缺失值进行填充
#Distance出现缺失值可能是用户关闭了定位地理位置授权,由于Distance的取值为【0-10】,所以可选12作为缺失值填充
1.5 数据处理
1.6 保存文件
二.将文件导入datagrip中用SQL分析
2.1查询各列数据为空值的数量
输出:
三.总体情况统计分析
3.1 数据总体情况
输出:
分析:领券总人数1053282人,但领券消费人数仅有75382人,核销率7.16%,优惠券使用率低。
3.2 优惠券每月核销情况统计
输出:
3.3 每月新增用户数
输出:
分析:月新增用户呈波段式增加,1,3,5月份新增用户增加明显,考虑是当月优惠券的发放优化、商户促销活动、渠道推广等因素影响
四.用户分析
4.1 获客:每日新增用户情况
输出:
4.2 转化及流失情况
2016-01-01至2016~06-30指标情况:
输出: