存量运营好工具：客户稳定度评分卡模型

最新推荐文章于 2022-07-07 19:17:07 发布

数据猿

最新推荐文章于 2022-07-07 19:17:07 发布

阅读量2.2k

点赞数 2

640?wx_fmt=gif

导读

本文主要是介绍基于逻辑回归算法的稳定度评分模型实现流程，所选案例也详细展示了模型构建的整个流程及处理方法。

来源：原力大数据丨作者：黄广山

数据猿官网 | www.datayuan.cn

今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区

存量运营是企业针对现有客户，以提升客户忠诚度，释放客户价值为目的的一系列经营方针和策略，是在当前人口红利和流量红利消失的情况下，企业十分重视的板块。本文将介绍其中一种策略——客户稳定度评分体系构建。

客户稳定度评分模型是评分卡模型的一种，本质上是一种有监督的机器学习模型，是一种以分数衡量流失几率的一种手段，用来预测客户在未来一段时间流失的概率。

通过对客户的稳定度进行评分，可以对客户进行分群，并针对不同稳定度的群体制定相应的营销维稳策略，为企业实现精细化运营提供决策依据。

评分卡模型在信贷管理领域广为人知，除此之外，它还被广泛的应用在市场营销、客户关系管理、账户管理等场景。下文将以我们原力大数据为运营商搭建的客户稳定度评分模型为例，介绍整个模型和应用实现过程。

准备工具

Python2.7编程环境，sklearn算法库及其他科学计算库

实现流程

Step1 数据准备

(1) 定义目标变量

正样本：即低稳定度客户，指的是以当月在网客户为基数，4个月后非正常在网的手机客户，标记为1。

负样本：即中高稳定度客户，指的是以当月在网客户为基数，4个月后仍正常在网的手机客户，标记为0。

(2) 收集数据

以5月在网客户为基数，以9月底客户是否正常在网给不同客户打上标签，仍然正常在网标记为0，非正常在网标记为1。取正例5万、反例10万进行建模。取5月在网客户的4月、5月数据作为历史数据，以2个月时间窗作为观察期。

(3) 数据字段结果

取了以下23个字段数据，如表1 所示：

表1 字段解释

Step2 数据预处理

(1) 数据清洗

无效数据处理：删除无效字段、样例、缺失值，本次建模，共删除无效样例1.7万。

注意：资费ID字段是一个类别数超过2000的定性字段，容易过拟合，故删除；

数据转换：将入网时间字段转换为网龄（用NET_AGE字段表示，以月为单位），转换为机器可识别的类型；
缺失值处理：对定性特征（离散型特征）采用众数填充法，对定量特征（连续型特征）采用均值填充法，本例中，定量特征包括：NET_AGE 、YW_JWQ_NUM 、JWQ_NUM 、ARPU_N 、ARPU_N_1、MOU_N 、CALL_N 、CALL_N_1共计8个特征字段，其余特征字段均为定性特征；

(2) 定量变量筛选

定量特征筛选：通过相关系数法筛选定量特征，如表2 所示，表中为各数值特征与目标变量的相关系数，首先，删除与目标变量相关性低于0.3的特征：ARPU_N 、ARPU_N_1、YW_JWQ_NUM；

表2 特征字段及目标变量之间的相关系数矩阵

*字段说明：NET_AGE（网龄）、YM_JWQ_NUM（异网交往圈人数）、JWQ_NUM（交往圈人数）、APPU_N（本月费用）、APPU_N_1（上月费用）、MOU_N（本月通话时长）、MOU_N_1（上月通话时长）、CALL_N（本月主叫通话时长）、CALL_N_1（上月主叫通话时长）、STATE（1：低稳；0：中高稳）

共线性问题处理：共线性问题又称做多重线性问题，在应用逻辑回归模型时应尽量避免出现共线性问题，即特征之间出现强相关性（相关系数大于0.8）时只能保留一个特征。

可以看出MOU_N、MOU_N_1、CALL_N、CALL_N_1具有强相关性，删 .除CALL_N、CALL_N_1字段，合并MOU_N、MOU_N_1字段为 . MOU_AVG，表示本月及上月通话时长均值。

调整效果检测：经上述处理，得出调整后的相关系数矩阵，如表3所示。下表所示结果已经消除了共线性问题，并保留了与目标变量较为相关的特征字段。

表3 调整后的特征字段及目标变量之间的相关系数矩阵

*字段说明：NET_AGE（网龄）、JWQ_NUM（交往圈人数）、MOU_AVE（本月和上月平均通话时长）、STATE（1：低稳；0：中高稳）

3) 定量变量分箱

离散化：构建稳定度评分模型时需要将定量变量（连续变量）进行离散化，本项目采用卡方分裂算法对筛选后的定量特征进行分箱处理，默认分为6组。

卡方分裂算法：卡方分裂算法是监督的、自底向上的（即基于合并的）数据离散化方法。它依赖于卡方检验：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则；

其思想是对于精确的离散化，相对类频率在一个区

间内应当完全一致。如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，应当保持分开。而低卡方值表明它们具有相似的类分布。

定量变量分箱结果如表4：

表4 定量变量分箱结果

(4) 定性变量筛选

计算各个定性变量的IV值，删除小于0.1的变量：CITY_ID、IS_BXL、IS_BROAD、IS_JX、IS_YJ_EX共计5个字段；

(5) WOE转换

计算WOE值。
WOE：基于逻辑回归的评分卡模型一般需要先将所有变量进行WOE编码。它实际表示“当前分组中响应客户（标记为1的客户）占所有响应客户的比例”和“当前分组中没有响应的客户（标记为0的客户）占所有没有响应的客户的比例”的差异，WOE越大，差异越大。于逻辑回归的评分卡模型需要先将所有变量进行WOE编码。
WOE值如表5所示：

表5 WOE值计算结果