本文根据小红书的3万余条销售数据,利用Python进行线性回归,对小红书的销售额进行预测。
以下为关键数据维度概览:
下图为数据分析流程及思路:
- 数据概况分析:
- 单变量分析
- 单笔销售额主要分布在1000元以内,平均消费金额在397左右。
- 只有少部分用户近30日参与活动并进行讨论。
- 2年及以上老客户占比近7成,用户留存方面较好。
- 平均距今消费天数为7天,且绝大部分分布在20天以内,用户消费频率较高。
- 平均累积消费金额为2339,绝大部分累积金额在5000以内。
- 绝大部分用户购买小红书自营产品,用户忠诚度较高,小红书产品可供选择性较强。
- 用户群体70%为女性,且平均年龄在29岁。
- 多变量分析
- 首先查看类别行变量与消费金额的关系,其中年龄在23-30之间、30天内参加过活动、6各月内的新消费用户以及男性的平均消费金额更高。
- 数字型变量中,累积消费金额与单笔订单金额呈正相关关系,相关系数为0.17,第三方app购物次数与消费金额呈负相关关系,相关系数为-0.026,距今消费天数相关性较弱为0.036。
- 建立线性回归模型:
- 选择相关系数将较高的数据维度作为自变量,使用平均绝对误差及均方差判断拟合效果。
- 模型优化
- 我们可以看到,性别空值对应的活动详情也全为空值,这属于数据系统性偏差,将该部分数据删除。
- 去除消费金额离群值,将2倍四分位距作为阈值。
- 将用户年龄及第三方app购买次数数据进行分箱。
调整之后均方差下降显著。
标准模型输出表:
- 模型解读:
在多元线性回归中,30天内是否参加活动对销售金额影响最大,即参加的客户比未参加客户平均多消费56元;其次为是否为新客户,新客户比老客户消费金额平均高出13元;最后一次消费距今天数每多一天增加7销售金额。
- 业务解读:
- 生命周期在2年以上的老用户平均消费低于新用户,可以针对老用户群体提供专场优惠活动,以此来刺激该群体平均消费金额。
- 30天内参加评论及活动的群体消费金额提高明显,可以优化社区活动及产品内容,增加评论抽奖或领取优惠券等福利活动,来鼓励并提高用户参与度,以此来提高销售额。
- 男性平均消费金额高于女性,可细分男性用户标签,并进行精准营销来扩大男性用户群体。
- 在校大学生平均消费金额较高但人数占比较小,可针对该潜力群体可增大对该群体营销及优惠力度。
- 最后一次下单距今时间越久,平均消费金额越大,可增加定期活动开展频率来刺激消费并满足用户需求。