c++多元线性回归_多元线性回归分析——小红书销售额

本文利用Python对小红书3万条销售数据进行多元线性回归,发现30天内参加活动的用户、新客户、男性用户及距上次消费时间长的用户消费金额较高。建议针对老用户、活动参与用户、男性用户和长时间未消费用户制定策略以提升销售额。
摘要由CSDN通过智能技术生成

dc0c6cba5fdda90aa7f717440943c772.png

本文根据小红书的3万余条销售数据,利用Python进行线性回归,对小红书的销售额进行预测。

以下为关键数据维度概览:

0cfcb2e39204d2af3eb538f5fe19653d.png

下图为数据分析流程及思路:

5eea7df1d889781f25fea0aea9ce6bba.png

bab57b0b38a5905f2816571dcd956a71.png
  • 数据概况分析:

b7cb164f8a60c6e6ca4a921c5d6b1eb8.png
年龄、性别及参加活动情况存在缺失值,占比为40%,计划用unknown填充性别及活动,以均值填充年龄。
  • 单变量分析

0229566a6e3d2e0967fc3156071ad07d.png
  • 单笔销售额主要分布在1000元以内,平均消费金额在397左右。
  • 只有少部分用户近30日参与活动并进行讨论。
  • 2年及以上老客户占比近7成,用户留存方面较好。
  • 平均距今消费天数为7天,且绝大部分分布在20天以内,用户消费频率较高。
  • 平均累积消费金额为2339,绝大部分累积金额在5000以内。
  • 绝大部分用户购买小红书自营产品,用户忠诚度较高,小红书产品可供选择性较强。
  • 用户群体70%为女性,且平均年龄在29岁。
  • 多变量分析

311ff034aa24eeb89b2b20ad0ad286bb.png
  • 首先查看类别行变量与消费金额的关系,其中年龄在23-30之间、30天内参加过活动、6各月内的新消费用户以及男性的平均消费金额更高。

61fa4d898335bc1c34079ace05a8efdd.png
  • 数字型变量中,累积消费金额与单笔订单金额呈正相关关系,相关系数为0.17,第三方app购物次数与消费金额呈负相关关系,相关系数为-0.026,距今消费天数相关性较弱为0.036。
  • 建立线性回归模型:

a197c7a661b824eea4ccfc44535e7400.png
  • 选择相关系数将较高的数据维度作为自变量,使用平均绝对误差及均方差判断拟合效果。
  • 模型优化

49e71852bcdba1ff5f039086fa06f1b0.png
  • 我们可以看到,性别空值对应的活动详情也全为空值,这属于数据系统性偏差,将该部分数据删除。
  • 去除消费金额离群值,将2倍四分位距作为阈值。
  • 将用户年龄及第三方app购买次数数据进行分箱。

059ce768a3c0d875806dcfa71418b6b5.png

调整之后均方差下降显著。

标准模型输出表:

10609bcccf54465a42a4b5a8d6390919.png
其中r²较小,P值显著性较强。
  • 模型解读:

在多元线性回归中,30天内是否参加活动对销售金额影响最大,即参加的客户比未参加客户平均多消费56元;其次为是否为新客户,新客户比老客户消费金额平均高出13元;最后一次消费距今天数每多一天增加7销售金额。

  • 业务解读:
  1. 生命周期在2年以上的老用户平均消费低于新用户,可以针对老用户群体提供专场优惠活动,以此来刺激该群体平均消费金额。
  2. 30天内参加评论及活动的群体消费金额提高明显,可以优化社区活动及产品内容,增加评论抽奖或领取优惠券等福利活动,来鼓励并提高用户参与度,以此来提高销售额。
  3. 男性平均消费金额高于女性,可细分男性用户标签,并进行精准营销来扩大男性用户群体。
  4. 在校大学生平均消费金额较高但人数占比较小,可针对该潜力群体可增大对该群体营销及优惠力度。
  5. 最后一次下单距今时间越久,平均消费金额越大,可增加定期活动开展频率来刺激消费并满足用户需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值