作者:Ben,著有《Python数据科学:技术详解与商业实践》、《用商业案例学R语言数据挖掘》、《胸有成竹-数据分析的SAS EG进阶》作者。2005年进入数据科学领域,先后在亚信、德勤、百度等企业从事电信、金融行业数据挖掘工作。专注于消费信贷和财富管理方面的数据治理、客户智能与风险智能领域。
配套视频教程:Python数据科学-技术详解与商业实践(第二期)课程链接: https://edu.hellobi.com/course/280
涉及内容:信用卡客户流失预警模型-CRISP_DM建模流程、数据清洗、变量压缩、模型开发与评估
1、背景介绍:
随着信用卡市场的成熟,人均持卡量不断增加,加上第三方支付牌照的持续发放,人们可选择的支付手段不断丰富,信用卡客户流失(销卡)呈现常态化。C银行在国内信用卡市场中处于领先地位,管理层非常重视客户生命周期管理并取得了良好的回报,为进一步完善对客户流失及挽留环节的管理,管理层要求建立大数据模型,基于对客户销卡决心和预期价值的准确预测,制定差异化挽留策略,实现收益与成本的最佳平衡。具体来说,当客户打进电话提出销卡时,将客户的销卡决心、预期价值以及相应的应对策略,展示在客服人员的工作指导窗口上,在客户挽留环节改进客户体验,加强对潜在高价值客户的挽留力度。。
本次作业根据提供的数据(“CSR_CHURN_Samp.csv”,引用自陈春宝等出版的《SAS金融数据挖掘与建模》)信用卡客户流失预警模型。
2、本案例涉及的部分变量说明如下:
STA_DTE 数据提取时间
Evt_Flg 是否流失
Age年龄
Gen性别,1=男
Buy_Type近一个月主要的购物类型
R3m_Avg_Cns_Amt近3个月月均消费金额
R6m_Avg_Rdm_Pts近6个月月均兑换积分
R12m_Avg_Cns_Cnt近12个月月均消费次数
R6m_Cls_Nbr近半年还款拖欠次数
Ilt_Bal_Amt当前分期未还余额
Lmth_Fst_Ilt累计分期产品办理次数
Lmth_Fst_Int累计小额信贷申请次数
Csr_Dur累计持卡时长
R6m_Call_Nbr近半年投诉次数
Total_Call_Nbr累计投诉次数
Net_Cns_Cnt累计网上交易次数
Ovs_Cns_Amt累计境外交易次数
其他略:学习到这个阶段,已经可以适应不需要知道变量含义,凭借数据分析工序建立分类模型的状态。
3、作业安排:
3.1 基础知识:
1)分箱的作用,WOE和IV的作用;
2)比较IV法和统计检验法筛选变量重要性之间的异同。
3.2 案例解答步骤如下:
1)根据STA_DTE字段进行拆分,分出建模和测试数据集
2)对涉及的X进行分箱,计算分箱后X的WOE值和IV值。考虑数据清洗和缺失值处理
3)进行解释变量X之间的信息压缩。
4)使用逻辑回归建模并检验