现在银行产品同众化现象普遍存在,客户选择产品和服务的途径越来越多,客户对产品的忠诚度越来越低,所以客户流失已经成为银行业最关注的问题之一。而获得新客的成本远高于维护老客户成本。因此,从海量客户交易数据中挖掘出对流失有影响的信息,建立高效的客户流失预警体系,提前做好营销挽留,降低流失风险尤为重要。
这里提到了数据挖掘,那什么是数据挖掘呢?其实就是从大量的数据中去发现有用的信息,根据这些信息来辅助决策。数据挖掘揭示的是未知的、将来的数据关系,主要的作用就是预测,采用计算机技术、统计学、模型算法等。
模型算法有分类算法、回归算法、聚类算法等,每种算法类型又包含多种不同的算法,例如分类算法,就包含逻辑回归、朴素贝叶斯、决策树等,使用的编程语言有Java语言、Python,大家听了是不是觉得很专业、很复杂?今天给大家推荐一款简单易用的工具——Smartbi Mining,是由Smartbi推出的独立产品,旨在为个人、团队、企业所做的决策提供预测性分析。
Smartbi Mining具有流程化、可视化的建模界面,内置实用的、经典的统计挖掘算法和深度学习算法,并支持Python扩展算法,基于分布式云计算,可以将模型发送到Smartbi统一平台,与BI平台完美整合。
简单拖拉拽就可轻松完成预测,实在是太方便。下面我们就看看银行零售客户流失是如何进行预测的吧。
我们先了解一下数据的流程。数据挖掘有一套标准的流程,可以对数据进行各种科学的处理和预测,从而发现数据本身隐藏的规律。具体流程如下:
第一步:业务理解。明确目标,明确分析需求。
第二步:数据准备。收集原始数据、检验数据质量、整合数据、格式化数据。
第三步:建立模型。选择建模技术、参数调优、生成测试计划、构建模型。
第四步:评估模型。对模型进行全面的评估,评估结果、重审过程。
数据准备
业务理解这里不再多说。数据准备,初步判断客户可能会流失的情况,如银行卡交易量逐月下降等,对跟这些情况有关的数据进行采集、格式化。如下为本次示例中整理的数据表字段。
建立模型
客户是否流失,是一个分类问题,所以选择分类算法建立模型进行训练。
-
选择数据源。本次使用的是已准备好的示例数据源中的“银行零售客户数据”。
-
数据处理。
❶数据字段名不是很清晰,可以通过预处理在”元数据编辑”节点修改。
点击最下方的“运行”按钮,再通过节点右击选择“查看输出”可以运行看一下结果情况。
❷“特征离散”。
现在开始对数据的处理,如对年龄上总资产数据来说是要进行离散的;就拿年龄来说如果其他特征都相同,年龄20岁还是40岁对预测影响比较大的,而20岁还是21岁影响不大,为了提前减少预测误差,需要对数据按照范围重新划分。
数据划分使用的是“特征工程下”的“特征离散”。
这里离散方法为等距离散,离散区间为10,离散特征列后缀名为Buckerizer可更改。
选择的特征列有:年龄、月均代发、最大代发、AUM月均、AUM月初。
查看一下执行结果:可以看到新增加了5列,即是对原数据进行的离散操作。数据处理到这里就完成了。
- 算法模型。
这里需要说明的是,目前算法必须要有特征输入的过程。特征有2种途径,1种是特征选择,1种是卡方特征选择。两种的区别是如果已经知道哪种特效影响比较大,直接选择即可;如果不确定可以将字段列选择后,再设置可能影响的列的数量。
拖动节点进行特征选择。
“特征选择”,除去离散前的原字段、不必要的字段(如编码等)还有作为预测输出的字段(连续三个月AUM小于1000),所有的字段都可以选择来参与算法预测(此案例中共计16列);“卡方特征选择”,同上选择16列后,比如我们认为有影响的特征只有8个可以设置。
客户是否流失,是一个分类问题,所以选择分类算法建立模型进行训练。
选择算法节点:分类算法-逻辑回归。
算法节点需要进行训练和验证的过程,需要先进行数据的拆分,拆分成训练数据集合测试数据集。拆分后可以对逻辑回归算法训练,模型算法训练好之后需要进行校验。
评估模型
选择数据预测节点左侧连接训练模型,右侧连接拆分的测试数据集。在通过评估节点进行算法预测的评估。
查看一下评估节点的分析结果,3万条数据中预测错误的仅有4834个。
主要看加权F1值(对精确率和召回率综合考评的结果),这里是0.8445还是不错的。
如果不满意预测结果,我们还可以更改模型参数等。当然还可以查看卡方特征选择下的预测情况。这个就是运行,不断调优的过程了。
以上就是银行零售客户流失预测案例分享。
Smartbi Mining通过提供基于Web的可视化的界面,数据挖掘的每一步流程通过功能点的拖动和参数(属性)配置即可实现。
(我是分割线)
Smartbi Mining 数据挖掘包括3个大的模块:
(1)机器学习:主要是建立和管理项目,是数据挖掘的主题功能
(2)模型管理:模型管理是针对机器学习里面的模型保存功能进行模型管理。模型保存功能是将已经训练好的模型进行保存,下次有相同案例的时候可以直接使用模型,不用重复训练;主要是用于大数据量或者训练时间比较久的模型。
(3)服务管理:与模型管理功能类似,也是针对已经训练好的模型。不同之处是在模型里以服务的方式进行发布,方便第三方使用。
现在主要介绍机器学习功能。
点击进入机器学习页面可以看到有两个列表:一个是实验项目一个是案例项目。
实验项目:展示目前存在的所有项目
案例项目:系统内置案例,主要用于产品学习。
比如聚类功能如何在产品上实现,可以查看“深圳企业信息聚类”这个案例。
点击创建项目可以基于示例模型进行学习修改,如需保存,点击另存为。
点击机器学习管理界面右上角“创建机器学习项目”,可以通过示例数据源学习数据挖掘的流程和操作(创建文件目录设置名称)。操作界面如下:
最左侧是节点树:包含了已经开发好的所有节点。中间是主要实现区域,将节点之间拖拽过来即可。右侧是节点的参数配置和属性配置。