**下半年,信用卡圈却又发生了一次大的地震。**多家银行开始严格管控使用信用卡,论坛和网上各种哀嚎,很多卡友遇到刷卡限制、降额,甚至封卡。
这是为什么呢?
根《 2020年第一季度支付体系运行总体情况》显示,截止第一季度末,信用卡逾期半年未偿信贷总额高达918.75亿元,相较2019年末大幅增加23.7%,占信用卡应偿信贷余额的1.27%。
从数据上来看,今年第一季度信用卡逾期半年未偿信贷总额接近信用卡历史上的最高点,仅次于2019年第三季度的919.16亿元。
经过了今年年初的特殊情况,各大银行均在加强全流程风险管控,定期对一些高风险客户进行额度调整,以及实施更为审慎的新客户准入策略和提升催收效能。
银行在市场经济中起着至关重要的作用。他们决定谁能获得资金,以什么条件获得资金,并决定投资决策的成败。为了让市场和社会发挥作用,个人和企业需要获得信贷。
信用评分算法是银行用来决定贷款是否应该发放的一种方法,它对违约概率进行猜测。为了推进信用卡业务良性发展,减少坏账风险,各大银行都进行了信用卡客户风险识别相关工作,建立了相应的客户风险评分模型。
本案例基于思迈特软件的数据挖掘平台Smartbi Mining进行建模,使用逻辑回归分类算法**预测客户在未来两年内遭遇财务困境的可能性并进行信用评分,提高银行的客户风险识别能力。**本案例定义逾期90天以上就算作为逾期客户。
信用卡客户评分数据挖掘主要包括以下步骤:
-
从银行获取信用卡相关信息;
-
数据探索:探索整体数据分布和探索不同变量之间的关系;
-
数据预处理工作:包括数据清洗、数据离散化、处理样本不平衡问题等操作;
-
构建信用评分卡模型,计算各指标的分值及综合评分;
-
根据评分结果,分析该银行的客户的信用风险情况。
1、实施过程
本案例数据集来源于kaggle赛题数据,共计15万条客户数据,包括信用客户和逾期客户,并对数据进行人工标注,标注分为两类,分别为:0(信用客户)和1(逾期客户)。字段说明见表2-1。
1.1 数据接入
在实验中添加数据源节点,将评分卡客户数据读取进来,部分数据如图2-1所示。
为了方便理解本数据集每个特征的含义,使用元数据编辑节点,添加中文字段别名,更改后的输出如图2-2所示,流程图如图2-3所示。