本文以‘o2o优惠券线下核销数据集’的分析全过程为例,展示数据分析的全过程
数据清洗工具:jupyter notebook
数据分析工具:datagrip,Excel
可视化图表工具:tableau
分析类型:描述性分析,诊断分析
分析方法:漏斗分析,RFM用户价值分析,AARRR分析,假设检验分析。
目录
4.5.2 分别查询R,F的最大值,最小值以及各值数量分布情况
4.5.3 根据R,F值最大值和最小值的区间设计本次的打分标准,计算R,F的值
一.数据清洗
1.1数据集来源
阿里天池:O2O优惠券使用预测数据集_Tianchi Datasets (aliyun.com)
1.2数据说明
该数据集提供2016年1月1日至2016年6月30日的真实线上和线下用户消费数据。研究人员预计将预测客户在收到优惠券后 15 天内兑换优惠券的概率。
线下消费及优惠券表(offline_train.csv.zip)

1.3数据导入

1.4查看缺失值

#通过查看缺失值发现Coupon_id,Discount_rate及Date_received的缺失值数量一样,Coupon_id表示优惠券id,当它为null时,说明没有这张优惠券,那么Discount_rate,Date_received也没有意义,所以存在三者同时为null的情况是合理的。
#用0替代Coupon_id,Discount_rate的缺失值,用fillna()对缺失值进行填充
#Distance出现缺失值可能是用户关闭了定位地理位置授权,由于Distance的取值为【0-10】,所以可选12作为缺失值填充

1.5 数据处理



1.6 保存文件

二.将文件导入datagrip中用SQL分析
2.1查询各列数据为空值的数量
输出:

三.总体情况统计分析
3.1 数据总体情况

输出:

分析:领券总人数1053282人,但领券消费人数仅有75382人,核销率7.16%,优惠券使用率低。
3.2 优惠券每月核销情况统计

输出:

3.3 每月新增用户数

输出:

分析:月新增用户呈波段式增加,1,3,5月份新增用户增加明显,考虑是当月优惠券的发放优化、商户促销活动、渠道推广等因素影响
四.用户分析
4.1 获客:每日新增用户情况

输出:

4.2 转化及流失情况
2016-01-01至2016~06-30指标情况:

输出:

本文通过阿里天池数据集,详细阐述了使用SQL进行数据清洗、分析以及使用Tableau进行数据可视化的过程。分析涵盖用户、商户、优惠券等多方面,发现优惠券核销率低、用户留存与消费行为、商户核销率等特点,并探讨了影响因素。
最低0.47元/天 解锁文章

503

被折叠的 条评论
为什么被折叠?



