一、目的
1、根据还款未复贷老户的借贷数据,对老户进行群体分类;
2、对不同的客户群体进行特征分析,以便于定向营销。
二、分析过程
1、分析思路
数据包含了2018年4月13日至2020年4月9日期间的客户数据,共有22014条记录。在RFM模型的基础上,增加了注册使用App天数这一指标用于客户分群与价值分析,得到本次的LRFM模型,变量解释如下:
L:注册使用APP天数。客户注册日期至观测结束日期的间隔。
R:距今还款未复贷天数。客户最近的成功还款日期至观测结束日期的间隔。
F:借款成功次数。观测时间内客户借款成功次数。
M:借款成功总金额。观测时间内客户借款成功总金额。
2、数据提取及处理
(1)从数据库中提取需要的注册使用APP天数、距今还款未复贷天数、借款成功次数、借款成功总金额等数据,并排除掉黑名单、被关小黑屋及电话已注销的用户。
(2)可以查看下数据的最大最小值、平均值、方差等描述性统计量,及查看缺失值、异常值等情况。
3、数据标准化
由于变量量纲不同,对数据进行标准差标准化,具体实现如下:
#-*- coding: utf-8 -*-
import pandas as pd
inputfile = 'D:/data/classification/old_user.xlsx' #需要进行标准化的数据文件
outputfile = 'D:/data/save/zscore_old_user.xlsx' #需要进行标准化的数据文件
data = pd.read_excel(inputfile)
data = (data - data.mean(axis = 0))/(data.std(axis = 0)) #标准化处理
data.columns=['Z_'+i for i in data.columns] #表头重命名
data.to_excel(outputfile, index = False) #数据写入
4、K-Means聚类
利用K-Means算法