RFM模型挖掘价值用户

一、提出问题(Business Understanding )
2018年,中国电子商务交易规模持续扩大,达到了31.63万亿元,稳居全球网络零售市场首位。
中国电子商务积累了大量的消费者用户数据和行为数据,如何运用这些数据挖掘出有价值的商业信息是重要的经营问题。
一个重要的问题是,如何从海量的用户中挖掘出价值用户,维护价值用户关系,进行精细营销,优化用户体验,提高复购率,提高利润?
本次分析旨在:利用kaggle网站Online Retail Data Set from UCI ML repo项目的数据集,使用RFM模型,对用户进行聚类分析,找到价值用户,为精细营销提供数据支持。

二、理解数据(Data Understanding)
2.1采集数据
数据集来源于kaggle网站Online Retail Data Set from UCI ML repo项目。
数据集相关信息:时间范围从2010年12月1日到2011年12月9日,8个字段,541909条记录。在这里插入图片描述在这里插入图片描述

2.2导入数据
在这里插入图片描述
2.3查看数据集信息
1)字段含义
在这里插入图片描述
2)查看描述信息
在这里插入图片描述

三、数据清洗(Data Preparation )
3.1 字段重命名
在这里插入图片描述
3.2 删除重复值
如果八个字段数值相同,则删除重复数据,只保留一条。
在这里插入图片描述
3.3 缺失值处理
把RFM模型计算需要用到的字段的缺失值删掉。
在这里插入图片描述
3.4 一致化处理
1)字符串转化为浮点型
在这里插入图片描述在这里插入图片描述
2)字符串转化为日期时间类型
在这里插入图片描述
在这里插入图片描述
转换为日期时间类型后,如果交易日期的值不符合日期格式,则将其变成空值,并删除。
在这里插入图片描述
在这里插入图片描述
3.5 异常值处理
查看一致化处理之后的描述信息
在这里插入图片描述
可知,每笔交易量的最小值为-80995,产品单价最小值为0,不符合常理。通过条件判断可以筛选出合理的数据。
在这里插入图片描述
原数据集的时间范围是2010-12-01到2011-12-09,2011年12月数据不满一个月,为了分析方便,删除2011年12月数据,保留时间范围为2010-12-01到2011-11-30。
在这里插入图片描述

四、构建模型(Modeling)
比较常用的用户分类方法是RFM模型。
什么是RFM模型?
RFM分别是三个英文单词的首字母。 R( Recency)代表消费新鲜度。理论上,最近一次消费时间越近,说明此用户相对来说是比较优质的用户,对提供提供即时的商品或者服务,他们 是最可能及时响应的。 F( Frequency)代表消费频率,是用户在某段时间内购买商品或服务 的次数。一般来说, 消费频率越大, 顾客忠诚度越高。 M( Monetary)代表消费金额。消费金额体现用户的消费能力。消费金额越大,用户价值越高。
这三个指标的综合,可以衡量用户价值。
本次建模分为两步,第一步生成RFM临时表,第二步根据k-means算法找到价值用户。

4.1 生成RFM临时表
1)消费新鲜度R计算
消费新鲜度定义:用户的最后一次交易日期距离2011-11-30的天数。
首先,按用户号进行分组,计算每个用户的最后一次交易日期。
在这里插入图片描述
其次,计算每个用户的最后一次交易日期与2011-11-30的天数差。
在这里插入图片描述
最后,查看消费新鲜度(天数差)的描述信息。
在这里插入图片描述
2)消费频率F计算
消费频率F定义:用户在2010-12-01到2011-11-30时间范围内的购物次数。
同一单号算作一次购买。
在这里插入图片描述
分别计算每个用户的购买次数。
在这里插入图片描述
查看消费频率的描述信息。
在这里插入图片描述
3)消费金额M计算
消费金额M的定义:用户在2010-12-01到2011-11-30时间范围内的消费总金额,等于每笔交易量乘以产品单价。
首先,计算用户每次交易的金额。
在这里插入图片描述
其次,计算一年内用户交易的总金额。
在这里插入图片描述
最后,查看消费金额的描述信息。
在这里插入图片描述
4)生成RFM临时表
首先,合并三个字段,生成RFM临时表。
在这里插入图片描述
其次,列名重命名。
在这里插入图片描述
最后,查看RFM临时表的描述信息。
在这里插入图片描述
4.2 根据k-means算法找到价值用户
所谓聚类,是根据相似性原则,将具有较高相似度的数据对象划分至同一类簇、将具有较高相异度的数据对象划分至不同类簇的一种算法。
聚类与分类最大的区别在于:聚类过程为无监督学习过程,即待处理数据对象没有任何先验知识;而分类过程为有监督学习过程,即存在有先验知识的训练数据集。
聚类可以用于探索数据的潜在结构,并用数目较少的更有意义的结构来解释数据的信息。
k-means算法,是比较流行的一种聚类算法。
k-means算法中的k代表类簇个数,means代表类簇内数据对象的均值(这种均值是一种对类簇中心的描述),因此,k-means算法又称为k-均值算法。
k-means算法是一种基于划分的聚类算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。
4.2.1 数据预处理
K-means算法试图找到使平方误差函数最小的簇。当潜在的簇形状是凸面的,簇与簇之间区别较明显,且簇大小相近时,其聚类结果较理想。为此我们对数据进行对数变换和标准化。
在这里插入图片描述
在这里插入图片描述
4.2.2 选择聚类数目K
使用手肘法计算最佳聚类数目K.
计算从1到9的簇内误差平方和,画出碎石图。
在这里插入图片描述
在这里插入图片描述
可知,聚类数目到3时,曲线逐渐开始平缓。
因此,K=3即为最佳聚类数目。
4.2.3 模型计算
在这里插入图片描述
在这里插入图片描述
可知,标签2用户是价值用户。其人数为824人,平均消费新鲜度为17天,平均消费频次是12次/年,平均消费金额是7034欧元/年。
4.2.4 标签可视化
在这里插入图片描述
4.2.5 结果保存
把聚类结果保存为文件。
在这里插入图片描述

五、用户画像(Drawing)
价值用户对销售额的贡献如何?
首先,计算价值用户的数量占比。
在这里插入图片描述
其次,计算价值用户的销售额占比。
在这里插入图片描述
在这里插入图片描述
可知,价值用户用19%的数量占比,贡献了69%的销售额。

六、结论建议(Conclusion)
本次研究,运用RFM模型和k-means算法,对Online Retail Data Set from UCI ML repo项目进行数据挖掘。
1)把用户分为三类,其中价值用户的特征是:人数为824人,平均消费新鲜度为17天,平均消费频次是12次/年,平均消费金额是7034欧元/年。
2)价值用户用19%的数量占比,贡献了69%的销售额。
建议重点维护与价值用户的关系,进行精准营销,提高用户体验。可以进一步挖掘价值用户的消费特征,根据其购买结构进行智能推荐,提高复购率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值