一、客户流失管理过程
业务目标:预测客户流失的概率和挽留的价值-->
数据准备:数据决定结果-->
流失预警:哪些客户即将流失-->
客户价值:哪些客户更值得挽留-->
分客群挽留策略:收益和成本的平衡-->业务目标
二、目标理解
需要对客户的销卡行为和价值进行预测,制定差异化的挽留策略,实现收益和成本的最佳平衡。
典型聚类问题,将客户按销卡概率和客户价值分为四类:
1. 价值高、销卡概率低
2. 价值低、销卡概率低
3. 价值高、销卡概率高
4. 价值低、销卡概率高
三、数据准备
1. 设定目标变量Y:客户销卡概率、客户价值
2. 设定时间窗口,因为要预测,自变量X应该在应变量之前预测才有意义,变量Y取半年内客户提出销卡请求,自变量在应变量之前一年,如图
3. 设计预测变量(自变量X)
- 身份特征:性别、年龄、职业、学历...
- 行为习惯:消费频次、购物类型、活跃度
- 信用历史:信贷产品逾期、拖欠、还款情况
- 产品偏好:产品数量、产品类型、渠道喜好
- 客户关系:持卡时长、投诉次数、营销响应、社交特征
- 生活形态:居住环境、网络行为标签、公共数据标签
4.准备数据宽表
按客户ID准备好包含目标变量(Y)和预测变量(X)的宽表
四、流失倾向预测
典型分类问题,使用Logistic回归算法
1. 数据预处理非常重要,需要进行粗分类,比如某个变量的取值有100个,则将100个取值进行分组合并,减少变量取值的个数。原则是:组内应变量差别小,组间应变量差别大。
2. 计算分组变量的WOE和IV值(帅选变量依据)
粗分类后,全部变量为类别变量,需计算WOE和IV值了解分组结果对应变量的显著性
WOE(Weigh Of Evidence)
IV(Information Value): 体现自变量对目标变量的显著性影响,一般来说IV在0.1到0.5直接表明变量X与目标变量有一定的相关性
3. 共线性检查
检查WOE分组变量之间的相关性,对具有相关性的一批变量,可选其中的一个变量作为代表,这样可以减少变量的个数。
指标:方差膨胀因子VIF(Varience Inflation Factor),VIF=1/(1-Rsquare)
- 0<VIF<5:存在较弱共线性
- 5<=VIF<10:存在较强共线性
- VIF>=10:存在强共线性
4. 模型训练:显著性检验
使用SAS Proc Logistic处理,一是得出与目标变量显著相关的自变量,一是模型对训练数据预测一致性百分比
5. 模型评估
运用验证集数据,根据模型训练计算出来的模型,进行打分。
首先,按预测概率P从大到小进行排序,将全部客户分为若干组,然后计算每组客户的实际销卡率、平均预测概率(实际上是准确率)、累计销卡率(ROC曲线)、KS、提升度
1)实际销卡率vs平均预测概率曲线(准确率曲线)
二曲线重合度越高,则模型的准确度越高,曲线陡峭下降,说明模型的区分能力强,能够将潜在的销卡客户锁定在较小的范围内,曲线平滑,说明模型稳定,无过拟合问题。
2)累计销卡率(ROC曲线)
体现模型覆盖销卡客户的能力,建设将客户随机等分20组,则每组应该还该5%的销卡客户,如果打分最高的5组客户(占客户总量的25%),覆盖了75%的销卡客户,说明只要针对这25%的客户进行挽留,就能获得全部客户挽留75%的效果
3)KS:累计销卡率-累计未销卡率
用于评价模型的区分度,KS在30%-60%之间,则说明模型具有较强的区分度,如果KS过高,需要检查变量的设计是否存在问题,或者运用跟多的验证集检查过拟合情况。
4)LIFT:提升度
相对不使用模型,运用模型能够缩小目标客户分布范围的能力,即使用模型累计销卡率/随机情况累计销卡率,如将客户随机等分20组,最高预测概率组有累计23%的销卡率,提升率为23%÷5%=4.6
五、潜在客户价值预测
预测数值,是典型的慧谷问题,线下回归是最常用的算法。这里用了Logistic回归和线性回归相结合方法,先用Logistic回归预测客户为高价值的概率Ph,再将Ph作为预测变量与其他变量X一起建立线性回归模型。
1. 高价值概率Ph预测:认为根据客户价值划分为两组,高价值客户和低价值客户,方法有二八法则,价值最高的20%的客户定义为高价值客户,也可以绘制Value分布图,将拐点作为划分依据。
然后按照流失倾向预测的方法进行建模。
2. 客户价值数值预测
线性回归模型,变量X一般为数值型变量,对于离散型变量,通常选择其他方法选择最有影响力的变量划分客户群,为每个客户群分别建立线性回归模型。或者在高价值概率Ph预测时转化为WOE变量。
3. 模型评估
两项指标:
1)R方:体现预测变量X对目标变量Y的解释能力,介于0~1之间,越接近1,模型的拟合度越好。模型拟合度好并不代表在实际应用时能够准确预测,也可能存在过拟合,所以R方是聘雇模型的必要条件,但不是充分条件。
2)拟合曲线:
根据验证集的预测结果,对比客群预测值和实际值,这样的对比很有说服力。通常根据预测值从高到低等分20组,绘制魅族平均预测值和实际值,绘制拟合曲线。曲线解读方法包括曲线拟合程度,陡峭程度、光滑性等。
六、客户细分:差异化营销服务的基础
两个模型建立之后,已经可以预测未来哪些客户更可能流失以及其潜在客户价值高低,需要做的是识别最值得挽留的客户,有效的分配营销资源
以上内容来自《SAS金融数据挖掘与建模:系统方法和案例解析》第六章