RFM模型挖掘价值用户

最新推荐文章于 2024-08-10 08:48:29 发布

centrino1917

最新推荐文章于 2024-08-10 08:48:29 发布

阅读量1.4k

点赞数 3

分类专栏： Python 文章标签：数据分析 Python RFM模型

本文链接：https://blog.csdn.net/centrino1917/article/details/100058509

版权

Python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、提出问题（Business Understanding ）
2018年，中国电子商务交易规模持续扩大，达到了31.63万亿元，稳居全球网络零售市场首位。
中国电子商务积累了大量的消费者用户数据和行为数据，如何运用这些数据挖掘出有价值的商业信息是重要的经营问题。
一个重要的问题是，如何从海量的用户中挖掘出价值用户，维护价值用户关系，进行精细营销，优化用户体验，提高复购率，提高利润？
本次分析旨在：利用kaggle网站Online Retail Data Set from UCI ML repo项目的数据集，使用RFM模型，对用户进行聚类分析，找到价值用户，为精细营销提供数据支持。

二、理解数据（Data Understanding）
2.1采集数据
数据集来源于kaggle网站Online Retail Data Set from UCI ML repo项目。
数据集相关信息：时间范围从2010年12月1日到2011年12月9日，8个字段，541909条记录。在这里插入图片描述

2.2导入数据
在这里插入图片描述
2.3查看数据集信息
1）字段含义

2）查看描述信息

三、数据清洗（Data Preparation ）
3.1 字段重命名
在这里插入图片描述
3.2 删除重复值
如果八个字段数值相同，则删除重复数据，只保留一条。

3.3 缺失值处理
把RFM模型计算需要用到的字段的缺失值删掉。

3.4 一致化处理
1）字符串转化为浮点型

2）字符串转化为日期时间类型
在这里插入图片描述

转换为日期时间类型后，如果交易日期的值不符合日期格式，则将其变成空值，并删除。

3.5 异常值处理
查看一致化处理之后的描述信息

可知，每笔交易量的最小值为-80995，产品单价最小值为0，不符合常理。通过条件判断可以筛选出合理的数据。
在这里插入图片描述
原数据集的时间范围是2010-12-01到2011-12-09，2011年12月数据不满一个月，为了分析方便，删除2011年12月数据，保留时间范围为2010-12-01到2011-11-30。

四、构建模型（Modeling）
比较常用的用户分类方法是RFM模型。
什么是RFM模型？
RFM分别是三个英文单词的首字母。 R（ Recency）代表消费新鲜度。理论上，最近一次消费时间越近，说明此用户相对来说是比较优质的用户，对提供提供即时的商品或者服务，他们是最可能及时响应的。 F（ Frequency）代表消费频率，是用户在某段时间内购买商品或服务的次数。一般来说，消费频率越大，顾客忠诚度越高。 M（ Monetary）代表消费金额。消费金额体现用户的消费能力。消费金额越大，用户价值越高。
这三个指标的综合，可以衡量用户价值。
本次建模分为两步，第一步生成RFM临时表，第二步根据k-means算法找到价值用户。

4.1 生成RFM临时表
1）消费新鲜度R计算
消费新鲜度定义：用户的最后一次交易日期距离2011-11-30的天数。
首先，按用户号进行分组，计算每个用户的最后一次交易日期。
在这里插入图片描述
其次，计算每个用户的最后一次交易日期与2011-11-30的天数差。

最后，查看消费新鲜度（天数差）的描述信息。

2）消费频率F计算
消费频率F定义：用户在2010-12-01到2011-11-30时间范围内的购物次数。
同一单号算作一次购买。
在这里插入图片描述
分别计算每个用户的购买次数。

查看消费频率的描述信息。

3）消费金额M计算
消费金额M的定义：用户在2010-12-01到2011-11-30时间范围内的消费总金额，等于每笔交易量乘以产品单价。
首先，计算用户每次交易的金额。
在这里插入图片描述
其次，计算一年内用户交易的总金额。

最后，查看消费金额的描述信息。

4）生成RFM临时表
首先，合并三个字段，生成RFM临时表。

其次，列名重命名。

最后，查看RFM临时表的描述信息。

4.2 根据k-means算法找到价值用户
所谓聚类，是根据相似性原则，将具有较高相似度的数据对象划分至同一类簇、将具有较高相异度的数据对象划分至不同类簇的一种算法。
聚类与分类最大的区别在于：聚类过程为无监督学习过程，即待处理数据对象没有任何先验知识；而分类过程为有监督学习过程，即存在有先验知识的训练数据集。
聚类可以用于探索数据的潜在结构，并用数目较少的更有意义的结构来解释数据的信息。
k-means算法，是比较流行的一种聚类算法。
k-means算法中的k代表类簇个数，means代表类簇内数据对象的均值（这种均值是一种对类簇中心的描述），因此，k-means算法又称为k-均值算法。
k-means算法是一种基于划分的聚类算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。
4.2.1 数据预处理
K-means算法试图找到使平方误差函数最小的簇。当潜在的簇形状是凸面的，簇与簇之间区别较明显，且簇大小相近时，其聚类结果较理想。为此我们对数据进行对数变换和标准化。
在这里插入图片描述

4.2.2 选择聚类数目K
使用手肘法计算最佳聚类数目K.
计算从1到9的簇内误差平方和，画出碎石图。

可知，聚类数目到3时，曲线逐渐开始平缓。
因此，K=3即为最佳聚类数目。
4.2.3 模型计算

可知，标签2用户是价值用户。其人数为824人，平均消费新鲜度为17天，平均消费频次是12次/年，平均消费金额是7034欧元/年。
4.2.4 标签可视化
在这里插入图片描述
4.2.5 结果保存
把聚类结果保存为文件。

五、用户画像（Drawing）
价值用户对销售额的贡献如何？
首先，计算价值用户的数量占比。
在这里插入图片描述
其次，计算价值用户的销售额占比。

可知，价值用户用19%的数量占比，贡献了69%的销售额。

六、结论建议（Conclusion）
本次研究，运用RFM模型和k-means算法，对Online Retail Data Set from UCI ML repo项目进行数据挖掘。
1）把用户分为三类，其中价值用户的特征是：人数为824人，平均消费新鲜度为17天，平均消费频次是12次/年，平均消费金额是7034欧元/年。
2）价值用户用19%的数量占比，贡献了69%的销售额。
建议重点维护与价值用户的关系，进行精准营销，提高用户体验。可以进一步挖掘价值用户的消费特征，根据其购买结构进行智能推荐，提高复购率。