CDNow网站用户消费行为分析

这篇博客通过分析CDNow网站用户消费行为,揭示了用户订单数、订单金额的统计特性,用户消费特征,包括月人均消费分析,发现用户消费集中在1997年前3个月,且大部分用户消费能力一般。用户生命周期分析显示,大部分用户只消费一次,但有高价值用户存在。此外,通过RFM模型进行用户分层,发现流失用户占据主要部分,需要关注并引导这部分用户。最后,提出了增加产品种类、重点维护高价值用户、提升用户粘度等改进建议。
摘要由CSDN通过智能技术生成

为了检验自己前段时间学习的成果,同时也想通过一个实例来记录学习历程。这是本人第一篇数据分析实战项目,使用excel、MySQL和tableau对CDNow网站用户消费行为进行分析,也欢迎大家提出建议,相互交流探讨学习,实现共同进步。

1、数据来源

这次数据分析所用到的数据来源于CDNOW,数据包含了四个方面的数据信息,分别是用户ID、购买日期、订单数和订单金额。

2、分析思路

在这里插入图片描述

3、数据预处理

通过可以python可以看到数据集包含了69659行数据,共4个方面的数据信息,没有缺失值。其中购买日期不是规范的日期类型数据,通过excel函数=- -TEXT(B2,“0000-00-00”)转换为文本类型,再转换为短日期类型,同时给数据集增加一列序号信息。
在这里插入图片描述
转为短日期类型
清洗后数据

4、用户消费特征分析

4-1-1、用户订单数、订单金额的描述性统计

在这里插入图片描述
分析:
订单数角度:用户总消费次数是69659次,平均每次消费产生2.41个订单,中位数为2,最大订单数是99次,平均订单数略大于中位数,说明存在一小部分用户一次消费的订单数较多。

订单金额角度:用户每次消费的平均订单金额为35.89元,中位数为25.98,单次购买的最大订单金额为1286.01元,说明存在一小部分用户一次消费的订单金额较大。

4-1-2、用户整体消费分析

在这里插入图片描述
分析:
通过月消费次数、月消费金额、月销售量和月消费人数的折线图可以看出,月消费次数、月消费金额、月销量最高均在1997年3月,分别是11598次、393155元和26159单,月消费人数的最高是在1997年2月,达到9524人。

随着时间的改变,这4个指标折线图整体趋势基本一致。前3个月,这4个指标的值均较高,均呈现快速上升至峰值,从第4个月开始骤降至基本平稳,稍微有下降的趋势。

由于数据集中的维度不足,只能推断出现这样分布可能是因为1997年1~3月该网站推出了优惠活动,或者推出某一款或几款当时消费者所期待的新音乐,导致消费次数、消费金额、销售量、消费人数激增的原因。

4-1-3、用户月人均消费分析

在这里插入图片描述
分析:
从月消费人数折线图中还可以发现,2月消费人数是最多的,3月开始略微下降而消费次数、消费金额、销售量在3月确是达到了峰值,可以推断消费者中存在高价值客户。

用户月人均订单数和月人均消费金额趋势基本一致。
前3个月人均订单数不足3单,从1997年4月开始,人均订单数趋于稳定,在3单和4单之间波动。前3个月人均消费金额相对较低,到3月才略微超过40元,4月份以后开始稳定在45元~60元。

虽然1997年1~3月消费人数较多,总消费金额高,但通过箱线图可以发现,由于这些消费者当中大部分消费的金额不高,订单数也不多,拉低了整体的人均订单数和人均消费金额。

随着4月份开始,这部分低低消费金额、少订单的用户群体减少,并且有小部分高价值用户的出现,月人均消费金额和月人均订单数相对前三个月有一定提高,并且稳定在[45,60]的区间内。

4-2、用户个人消费分析

在这里插入图片描述通过散点图可以发现,用户消费金额和订单数成线性关系。
在这里插入图片描述
分析:
由于消费金额和消费订单数均存在个别极值,使得图形分布受到了干扰,因此对左边两个分布图的数据进行处理,分别截取了消费金额800元以内和消费订单数100单以内的数据。经过处理后可以看出,消费金额集中在40元以内,消费订单数集中在3单以内,说明大部分的用户的消费能力一般,高消费用户较少,由于网站主营的是cd产品,相对较为单一,这一情况也是满足cd消费市场的规律。通过辅助线可以看出,32.8%的用户占据了80%的的订单数,且32.65%用户所消费的总金额占80%。

这数据说明了这32.65%的用户是网站重点关注的对象,只需要重点维护好这批用户,业绩KPI就能完成80%。

4-3、用户生命周期分析

在这里插入图片描述
分析:
由上图可以发现,由于很大一部分用户消费周期为0,即只是一次消费,从图中难看出规律。排除只消费一次的数据后得到下图,可以发现分布图呈双峰分布,第一个高峰是20天内,第二个高峰是450天左右,针对这个现象,网站可以在20天内对用户进行引导,促使再次消费;在到30~400天内,可以通过定期短信通知、网络宣传、电话回访的方式,并且可以针对这些用户推出一些营销活动,引导其持续消费。
用户平均生命周期为134.9天,筛选点生命周期为0的数据后,用户平均生命周期是276天,将近是未筛选前的2倍,积极引导生命周期为0的用户,对提高平均生命周期尤为重要。

5、用户分层分析

5-1、用户价值度分析

在这里插入图片描述使用RFM模型对用户进行分层。
R:距离最近一次消费的时间差,数值越小越好。
F:消费次数,数值越大越好。
M:累计消费金额,数值越大越好。

分析:
按照这3个指标的组合,将用户分为8个等级,分别为
重要价值用户、潜力用户、重点深耕用户、一般发展用户、重点唤回用户、一般维持用户、重点挽回用户和流失用户。有57.73%用户为流失用户,占据了主要部分,其次是重要价值用户,有19.59%。

5-2、用户活跃度分析

(1)由于本数据集中没有包含用户注册时间的数据集,且没有1997年之前的数据,因此,定义1997年开始第一次购买的用户为新用户。
在这里插入图片描述
分析:
结合用户第一次消费和最后一次消费时间分布图发现,新用户集中在前3个月,后面一直都没有新增用户。大部分最后一次消费的用户集中在前3个月,说明忠诚用户的数量较少。从4月份开始,随着时间的递增,最后一次消费的用户数呈略微上升的趋势。

(2)针对每个用户的消费情况,将每个用户的消费状况按月进行划分:
注册未消费用户:注册id,但一直没有消费的用户;
新用户:第一次消费的用户;
活跃用户:上个月有消费,这个月也有消费的用户;
回流用户:上个无消费,这个月有消费的用户;
不活跃用户:上个月有消费,这个月无消费的用户。
通过MySQL生成user_status表(用户状态表):

select a.* ,
(case 
when a.s_id!=@k and a.s_amount!=0 then '新用户'
when a.s_id!=@k and a.s_amount=0 then '注册未消费用户'
when 
	((extract(month from a.s_date)-extract(month from @s_date)=1 and extract(year from a.s_date)=extract(year from @s_date))
	or (extract(month from a.s_date)-extract(month from @s_date)=-11 and extract(year from a.s_date)!=extract(year from @s_date))) 
    and a.s_id=@k 
	then '活跃用户' else '回流用户'
end) s_status,
@s_date:=s_date,@k:=a.s_id from s_table1 a,(select @ra:=0,@last_id='',@k:=0) b
group by a.s_id,extract(year from a.s_date),extract(month from a.s_date);
-- 查询需要的维度
select s_id,s_date,s_num,s_amount,s_status from user_group;

用户状态表
通过excel中的数据透析表,转换为下图:
在这里插入图片描述
1月份有数据的替换成“新用户”,空单元格替换成“未注册用户”。
复制一份上表,通过下面的公式,将剩余的数据替换。

=IF(AND(VLOOKUP( A 2 , ′ 用 户 消 费 情 况 ( 参 照 表 ) ′ ! A2,'用户消费情况(参照表)'! A2,!A 1 : 1: 1:S

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值