逻辑回归预测事件发生的概率_逻辑回归——预测用户是否会使用优惠券

60476e3ca6f93e3219a9293aaff98831.png

本文基于25000条天猫用户基本特征及行为两个数据维度,使用python分析使用优惠券用户画像及消费行为特征,并建立逻辑回归模型进行预测。

  • 数据维度概览

26742c3d36dc25a5460cf5aab92994cd.png
  • 数据分析流程及思路

1f1c836f9bb33971b94d9824277799f7.png

756ccaef5adc6f1127d910ee27007964.png
  • 数据概况分析

100185b749e626847c76aa45f8f46e99.png

6cebda107224d5fcb9975833867f12e5.png

1a45ec8a23984955688475250ed46a97.png
  • 整体数据不存在缺失值。
  • 类别型变量占比正常,用户职业存在少量未知。
  • 数字型变量不存在较明显异常值。
  • 单变量分析

类别行变量

0eab1aafc112d3dab4da127bbc50e1c9.png
  • 用户群体主要职业分布主要包括管理者、蓝领工人、技术人员、决策者、和服务人员。
  • 已婚人群占比最大为60%。
  • 16%的客户使用花呗进行购物。
  • 在使用花呗的群体中,不到2%有过违约记录。
  • 超过55%的用户有过退货记录。
  • 优惠券使用率为12%。

数值型变量

95302a1d89bbc3241844a93118578684.png
  • 用户平均为40岁,其中25-30岁群体人数占比最大。
  • 近6个月优惠券平均使用次数2.77次,主要集中在4次以内。
  • 近一个月优惠券平均使用次数为0.3次,主要在3次以内。
  • 多变量分析

778902a800967d0834fc1e0320e87bf8.png

bf4874b4f7d79b91f5bf979286b1e589.png

该表反映了相较未使用优惠券的客户,使用优惠券的各群体占比变化情况

  • 在职业方面:
  1. 学生群体在使用优惠券总人数占比为4.8%,在未使用优惠券总人数占比为1.7%,占比上升了1.7倍。
  2. 退休用户群体在使用优惠券总人数占比为10%,在未使用优惠券总人数占比为4.3%,占比相对上升了1.3倍。
  3. 失业群体相对上升了47%;企业经理人群体相对上升了22%。
  4. 蓝领工人占比则出现了下降情况,使用优惠券人数占比相较未使用下降了42%。
  5. 此外,创业者、女佣及从事服务行业的职业群体也出现了较明显的下降,分别为36%、28%、25%。
  • 在优惠券使用记录方面:
  1. 在使用优惠券中的用户群体中,6个月内平均使用优惠券2.12张,未使用则为平均2.85张,相比下降了26%
  2. 而在使用优惠券中的用户群体中,近一个月内平均使用优惠券0.54张,未使用则为平均0.26张,相比增加了106%。
  • 在婚姻方面:
  1. 单身群体占使用优惠券总人数占比为35.3%,在未使用优惠券总人数占比为27.3%,相对占比增加了30%;已婚群体则相对下降了13.6%,离异群体无明显变化。
  • 在用户消费行为方面:
  1. 有过退货记录的群体占使用优惠券总人数占比为35.8%,在未使用优惠券总人数占比为58%,占比相对减少了38%。
  2. 使用花呗的群体占使用优惠券总人数占比为9.5%,在未使用优惠券总人数占比为16.9%,占比相对减少了44%。
  3. 有过逾期记录的群体占使用优惠券总人数占比为0.87%,在未使用优惠券总人数占比为1.9%,占比相对减少了53%。

查看相关系数:

d5f4ebe95cbb53ee369ebf363b00bbab.png
  • 建立逻辑回归模型

代码如下:

6d1ef95997ec0a6025b3df5434858601.png
将相关系数较高的前几项作为参数,测试集占比为30%,以准确率、召回率、查准率以及auc评估指数来判断模型结果。

模型结果:

679cda753af651bfca95a53a1c041f77.png
当用户使用优惠券的查全率较差,auc评估指数也较低。
  • 模型调优

将连续型变量转换为,离散型变量:即把年龄分组,以及将6个月内使用优惠券次数转换为是否使用。

代码如下:

9b707ef54bd42f93e5d4948b62a999f2.png

77497410b1b5d2b75460f03db374bd6f.png

调优结果:

25d5f661807794d01e061d0d85c1eb5c.png
调优后TPR有明显提升、auc及精确率小幅提升

由于本次逻辑回归用于预测用户是否会使用优惠券,那么FN的情况是需要避免的,即将会使用优惠券的客户判断为不使用,这会造成较大损失,因此应着重关注FNR即TPR。

  • 模型解读

30780fa7a320a3b8a10cdd522007a352.png

由模型斜率可知:

  1. 老年人使用优惠券的可能性是其他年龄层的2.83倍;年龄在18-23岁的在校大学生比其他年龄层多68%的可能性使用优惠券。
  2. 近一个月使用过优惠券的客户群体会使用优惠券的可能性是没使用优惠券客户的2.83倍。
  3. 没有退货记录的客户群体使用优惠券的可能性是有退货记录群体的2.26倍。
  4. 单身群体比已婚及离异群体多29%的可能性使用优惠券。
  5. 职业经理人群体比其他群体多26%的可能性使用优惠券。
  6. 不使用花呗结账的用户比使用花呗用户多51%的可能性使用优惠券。
  7. 没有逾期记录的客户比有逾期记录的客户多53%的可能性使用优惠券。
  • 业务解读
  1. 从近期是否有使用消费券发现有趣的现象,6个月内平均使用优惠券次数更高的客户更可能不使用优惠券,而近一个月内平均使用优惠券次数更高的客户更有可能再次使用优惠券,这表明了用户消费在短期中存在消费惯性,即买了就停不下来。
  2. 单身客户在总客户占比28%,而在优惠券使用群体中占比提升到35%,这也是有趣的现象,可能反映单身群体通过增加购物来调剂单身生活。
  3. 逾期人群中,使用优惠券人数占比(0.8%)相对总人数占比(1.8%)下降了110%,这可能表明逾期人群经济状况恶化,降低消费频率从而不使用优惠券。或者也可能表明另一类不太关注花呗使用情况的群体,由于疏忽而导致逾期未还款,并且也不太关注天猫优惠券活动。
  4. 关于是否有退货记录,有意思的现象是,没有退货记录的人群相对有退货记录的人群有更大的可能性消费并使用优惠券。这可能表明网淘能力较强的客户更容易买到称心如意的产品,对每笔消费也更精打细算,关注并使用优惠券的频率也更高;当然,从另一个角度可以推断另一种可能,即使用了优惠券的客户有占了便宜的心里效用,因此对于产品的要求相对不会那么严格,退货率可能相对较低。
  5. 从年龄段来看,优惠券使用最大群体在年龄23-40之间,当然这和总人数成正比,并且在使用优惠券人数占比中并无变化;而18-23岁大学生虽然人群占比较小为不到1%,但使用优惠券人群占比达到2.3%,这表明大学生更倾向使用优惠券,原因可能是大学生网购的频率更高;在老年群体中,相对总群体占比提升了30%左右,证明了前述观点即退休人群收入稳定储蓄较多,且对质量要求更高,因此消费及使用优惠券倾向更大。
  • 业务建议
  1. 天猫应重点关注老年人、在校大学生、单身、上个月使用过优惠券及职业经理人这类客户群体,向他们提供更全面、更及时的优惠券信息,以提高他们再次使用优惠券并购买的可能。
  2. 天猫应提高产品质量、优化购物流程、或转变策略,减少客户退货行为,提高客户使用优惠券的意愿,从而增加消费行为。
  3. 天猫应该关注客户使用花呗的情况,虽然花呗在一定程度上提高了客户的购买力,但是数据显示,使用花呗、或者花呗出现违约的客户在该次活动中再次使用优惠券的概率降低。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值