一、项目介绍
- 数据来源:Kaggle
- 数据内容:2010年12月1日至2011年12月9日在英国注册的非实体网上零售发生的所有交易。
- 公司背景:公司主要销售独特的全天候礼品。该公司的许多客户都是批发商。
字段:
- InvoiceNo:订单编号,每笔交易有6个整数,退货订单编号开头有字母‘c’
- StockCode:产品编号,有5个整数组成
- Description:产品描述
- Quantity:产品数量,有负号的表示退货
- InvoiceDate:订单日期和时间
- UnitPrice:单价(英镑),单位产品的价格
- CustomerID:客户编号,每个客户编号由5位数字组成
- Country:国家的名称,每个客户所在国家/地区的名称
二、项目内容
三、分析目的
1、查看该公司销售情况
2、多维度了解用户消费行为
3、RFM用户分类
4、问题与建议
四、分析结果、问题与建议
1、现状分析
①该公司主要销量和交易额区域为英国,且远远高于其他国家,根据数据来源背景可知该公司经营方向侧重于英国国内,其他国家相对关注不多,数据表现正常。
②该公司11-9月的销售量远高于其他月份,重点关注11-9月,冬季为销售旺季,11月为峰值。
2、用户消费行为
①用户平均消费4次,有的客户甚至消费高达210次,是产品的忠诚客户
②平均消费金额为2053元、75%的客户消费金额只有1661,可见部分用户消费金额较大,属于非常有价值的用户,需要重点保持关注。
③用户购买数量平均高达1194件,由于销售对象主要是批发商,正常。
3、数据探索
3.1描述性统计分析
①单价、数量最小值都是负数。
②数量为负数,有退货情况,退货的数据,分析时需要剔除。
③单价不可能为负数,有可能是坏账,促销赠品单价为零是有可能的。
3.2UnitPrice分类,查看单价异常情况
①单价为0和负数的个数,观察数据异常比率,仅0.00468,很小,可以去除
3.3退货情况
①针对退货订单2011年1月和12月退货率存在异常,需要了解是外部因素还是内部因素导致的,需要从产品渠道价格促销四个方面分析找到原因进行改进。
4、用户分类
4.1RFM模型
①R:直方图显示分布波动较大,最近一次消费时间集中在最近三个月。用户平均92天未消费,最大值373天未消费,客户价值不大。
②F:查看分位数情况,人均消费两次,最大值为1428,异常值严重
③M:均值2000左右,查看M_value<2000的分布,异常值不严重
* 对数据进行离散化处理,解决异常值影响。
4.2用户等级情况
①用户分层得到8个类别客户,根据柱图可知重要价值、重要发展、一般挽留、一般发展客户四类客户数量差异较小,且远高于其他四类客户。
②根据饼图可知该公司最多的是重要价值和重要发展客户,这些客户占比占到了总体的47%,创造价值的主力,重要发展客户最近交易较少,可及时推送活动等方式挽回客户。
③一般挽留客户和一般发展客户占比约40%,针对这类客户获取其详细信息进行用户画像,了解用户的消费需求,对这类的用户进行更加精准的营销,及时推送产品信息。
④对于重要保持和重要挽留客户,以赠送优惠劵、推送折扣信息等措施增加用户活跃度。