背景介绍】
网站付费用户在40万 +,目前只有针对新用户和流失客户(大客户部分)两大人群做专门运营活动,从开源和节流两个层面上保证付费盘子的扩大,但对于现金牛用户(除了新用户和流失客户)一般能触及到的就是全站营销活动,但试想网站格子市场相差如此之大(最贵格子7天置顶1288元,最便宜格子7天置顶5元),用户的消费能力也必然相差较大,不进行精细化运营很难保证营收的最大化。于是我们引入用户分层的模型RFM,此模型在电信等其他行业已经成熟运用。
RFM(Recency,Frequency,Monetary)分析是一种营收市场技术,主要是通过分析付费用户的行为,对付费用户进行分层,从而达到精准营销的目的。有兴趣可参考 : RFM模型_wiki。RFM的变体 RFD(Recency,Frequency,Duration)也可用与于对网站用户的其他行为分析,详情及其他变体不在此赘述。
【参数解释】
- R:最近一次消费距今天数(Recency)
- F: 消费频率(Frequency)
- M:消费金额(Monetary)
【前提假设】
- 最近购买产品的用户更容易产生下一次消费行为
- 消费频次高的用户,用户满意度高,忠诚度高,更容易产生下一次消费行为
- 消费金额高的用户更容易带来高消费行为
- 具有相同RFM_value 的用户有相似的市场行为
【数据挖掘&数据化运营】
这里主要介绍RFM模型在网站营收付费用户的应用(Case Study),主要分为以下几个步骤:
Step1,RFM 分析和付费用户分层(cluster)
Step2,跟踪用户在不同状态的转移 (classification)
Step3,付费用户的产品推荐(association rule)(有可能不做,因为产品较少且产品相似度较高)
具体环节参考图1:
图 1
一、RFM分析和付费用户分层
1.1 RFM指标重新定义
- R (Recency)近度,用户最后一次付费(cash)日期距今天数
- F(Frequency) 频度,用户在半年时间内的付费(cash)次数
- M(Monentary) 值度,用户在半年时间内总付费(cash)金额
以上付费行为只考虑置顶大类(置顶,十万火急,至尊展位) + 套餐包
1.2 RFM分析
R-F-M分别按照5,4,3,2,1进行赋值,分别给出R_Score,F_Score,M_Score,
- R 按照数值递减排列,按数值区间依次分别赋值5,4,3,2,1
- F 按照数值递增排列,按数值区间依次分别赋值5,4,3,2,1
- M 按照数值递减排列,按数值区间依次分别赋值5,4,3,2,1
1.3用户分层(聚类方法)
按照R_Score,F_Score,M_Score进行用户聚类,采用方法为K-Means,后续优化采用K-Means + + ,共分8类,并给RFM赋予权重(目前权重采用R:F:M = 0.25:0.25:0.5),计算各类的用户价值。
1.4 结果解释
- 【cluster4,3,8】重要价值客户,占比18%
- 【cluster5,7】重要保持客户 ,用户近度比较低,需要关怀
- 【cluster6】重要挽留客户,用户近度和频度都较低
- 【cluster2】一般发展用户,用户频度和值度较低,可做up营销
- 【cluster1】44%的用户贡献值很低,为无价值客户,可以采用一般挽留手段
说明:
- 用户分为8个cluster
- 最后一次付费距今,购买频次,总付费金额,R,F,M均为每个cluster的均值
- 客户价值 = 0.25*R + 0.25*F+0.5*M,反映用户的价值
1.5 数据运营案例
这里先选取重要保持客户作为营销的案例,主要分为2个环节:营销测试和营销正式上线,正式上线时考虑开发成本,选取的是模型的简化规则。
1.5.1营销测试
提取重要维持客户进行用户唤回,具体测试如下:
- 活动时间:2015/6/30~2015/7/7
- 活动对象:利用RFM模型 挑选出 重要保持客户[特征:R (最近付费距今天数)较小,F(消费频次)较大,M(消费额度)较大],并按照CLV(客户终身价值)的高低分成2组用户进行用户唤回。发券时进行用户筛选条件收紧:30天无accrual消费
- 活动方式:按上次消费产品和格子,发放3天置顶5折券
- 活动有效期:7天
- 活动渠道触达 :站内信&短信&微信&私信
- 结果:CLV较低的用户用券率和ROI更高,也会作为后续运营的重点。
1.5.2营销上线
模型简化后,营销上线的条件如下:
- 近30天没有置顶大类 cash 收入
- 近半年置顶大类总消费频次 >= 5次
- 近半年置顶大类总消费金额 >= 100元
- 近30天没有置顶大类 accrual 收入
- 非VIP用户
上线时间:2015/7/20,后续每周一11点run一次
活动类型:现金抵用券
券使用范围:用户最后一次消费的AD所在的格子
券类型:根据用户最后一次购买过的置顶类产品,购买的是置顶送置顶券,火急送火急券,至尊送至尊券,都没有就送置顶券
券金额:3天置顶/火急/至尊的5折金额的现金券
券有效期:14天
二、跟踪用户在不同状态的转移
随着时间的推移,用户很可能会在不同类别之间流转,譬如“重要保持客户”转变为“重要挽留客户”,如何预测用户在一段时间后的状态,及时做出市场动作,就显得比较重要,这里主要通过用户的属性来预测用户在4周后(选做4周的原因见下表)的类别,从而达到跟踪用户状态转移的过程。
1周后 | 2周后 | 3周后 | 4周后 | |
用户状态改变率 | 0% | 12% | 18% | 24% |
注:用户状态改变率 = ?周后状态改变的用户数/总用户数
这里主要是用到了数据挖掘中的多元分类机器学习方法,主要尝试了Naive Bayes,k-近邻(KNN),决策树,随机森林,神经网络等方法,其中预测准确率比较高的是随机森林,神经网络和决策树,这里欲采取决策树方法,主要原因:(1)通过调参可以达到和随机森林及神经网络差不多的准确率ACC;(2)AUC值相对比较高;(3)结果可解释性比较强。
【附】多元分类器的性能比较
决策树 (Decision Tree) | 神经网络 (ANN) | Naive Bayes | K-近邻(KNN) | SVM | |
准确率(通常情况) | 2 | 3 | 1 | 2 | 4 |
算法速度(耗时) | 3 | 1 | 4 | 4 | 1 |
对缺失值的处理 | 3 | 1 | 4 | 1 | 2 |
对冗余feature的tolerance | 2 | 2 | 1 | 2 | 3 |
对高相关feature的tolerance | 2 | 3 | 1 | 1 | 3 |
feature的离散和连续的要求 | — | 3(离散) | 3(连续) | 3(直接离散) | 2(离散) |
对噪声的tolerance | 2 | 2 | 3 | 3 | 2 |
overfitting的处理 | 2 | 1 | 3 | 3 | 2 |
可解释性 | 4 | 1 | 4 | 2 | 1 |
参数处理 | 3 | 1 | 4 | 3 | 1 |
说明:1-4分是对各算法的表现进行打分,4分表示best,1分表示worst