该案例分析项目是在小灶能力派商业数据分析课程上完成的
使用Python和Jupyter Notebook完成,本文是该案例的数据分析报告,详情代码在https://github.com/CLaraRR/xiaozao-data-analysis/tree/master/PDD
目录
1、项目说明
拼多多是国内主流的手机购物APP,成立于2015年9月,用户通过发起和朋友、家人、邻居等的拼团,以更低的价格,拼团购买商品。拼多多作为新电商开创者,致力于将娱乐社交的元素融入电商运营中,通过“社交+电商”的模式,让更多的用户带着乐趣分享实惠,享受全新的共享式购物体验。对于各大电商平台,在“双十一”这种大促时间段,优惠券会起到非常大的促销作用。那么,如何找到更容易使用优惠券的用户,对他们精准地推送与营销,从而在双十一期间使销售额大大提升呢?这就是我们需要支持拼多多共同分析与解决的一个问题。
2、项目要求
根据用户的基本信息以及过去的消费行为数据,完成以下事项:
- 使用Python建立逻辑回归模型
- 预测用户是否会在活动中使用优惠券
- 找到对用户使用优惠券影响较大的因素
3、数据认识
数据来源于小灶商业数据分析课程,该数据集一共有25317条数据,将原数据字典按照用户信息、消费行为和预测结果进行不同维度的分类,用思维导图来表示如下:
- 用户信息包括:记录编码、年龄、职业、婚姻状态
- 消费行为包括:信用卡是否违约、是否有过退货、是否使用信用卡付款、过去6个月使用的优惠券数量、获取1个月使用的优惠券数量
- 预测结果:也就是本次项目的任务,预测在本次活动中是否有使用优惠券
4、数据探索
本节的数据探索将分为数值变量和类别变量两种分别进行,主要探索其他变量和是否使用优惠券变量的关系。
4.1 整体的优惠券使用情况
统计数据集中所有用户使用优惠券的数量和不使用优惠券的数量。
由上图发现数据集极度不平衡,不使用优惠券与适用于优惠券的数据比例将近9:1,因此在后续建模的时候要改善数据不平衡这个问题。
4.2 不同年龄的使用优惠券情况
将所有用户的年龄以5岁的间隔进行分箱,以及区分用户是否使用优惠券绘制直方图,如下图。
从图中发现:
- 使用拼多多APP的用户年龄主要在在20-70之间,小于35岁和大于60岁的用户更倾向于使用优惠券,而在35~60岁间的用户更倾向于不使用优惠券。
分析原因:
- 小于35岁的用户更倾向于使用优惠券的原因是比较好理解的,因为年轻用户对APP的使用更为熟悉,更容易掌握优惠券的用法,而大于60岁的用户由于数量比较少,是否能直接得出他们更倾向于使用优惠券这一结论是不太靠谱的;
- 35岁到60岁之间的用户随着年龄增长用户量也随之减少,不倾向于使用优惠券的原因可能是不清楚APP推出的优惠券活动,或者是因为经济能力比较好而无需费心使用优惠券。
4.3 过去6个月优惠券使用情况
将所有用户过去6个月优惠券使用情况绘制直方图,如下图。
从图中发现:
- 过去6个月各个用户的优惠券使用数情况集中在0-10次之间
- 大部分用户在过去的6个月使用优惠券的次数为3次
- 少数用户使用优惠券的次数在10次以上,最多是55次
4.4 过去1个月优惠券使用情况
将所有用户过去1个月优惠券使用情况绘制直方图,如下图。
从图中发现:
- 过去1个月优惠券使用数量集中在0-2次之间
- 然而大部分用户在过去一个月没有使用优惠券
4.5 不同职业用户的优惠券使用情况
1、统计各个职业的用户数量,如图1
2、统计各个职业分别使用优惠券和不使用优惠券的用户数量,如图2
3、统计各个职业中使用优惠券的人数比例,如图3
- 使用APP的用户中,蓝领用户最多,其次是管理人员, 技术人员, 行政人员, 服务行业用户
- 使用了优惠券的用户中,管理人员最多,其次是技术人员, 蓝领用户, 行政人员, 服务行业用户,出现这样的结果是因为他们这些群体的用户量本来就很多,所以使用优惠券的人相较其他群体也要多
- 但是在各个职业群体中,优惠券使用率最高的是学生(26.9%)、退休人员(17.9%)、无业(16.2%),可以看出来学生、退休人员、无业游民这类没有收入或工资水平较低的用户更倾向于使用优惠券
4.6 不同婚姻状态的用户的优惠券使用情况
1、统计不同婚姻状态的用户数量,如图1
2、统计不同婚姻状态用户中使用优惠券的人数比例,如图2
- 在所有用户中,已婚用户数量最多,然后是单身用户、离婚用户
- 单身用户的优惠券使用率最高(14.6%)
4.7 信用卡是否违约的用户的优惠券使用情况
1、统计不同信用卡违约状态的用户数量,如图1
2、分别统计不同信用卡违约状态用户中使用优惠券的人数比例,如图2
- 只有少数用户信用卡违约
- 没有信用卡违约的用户的优惠券使用率为11.4%