emmmmm,因为这周忙成狗(T,T小小抱怨一下),所以在赛题上耽搁了不少,本期文章主要以风控业务的分享为主,想到哪说那,同时也是自己刚踏入风控行业没多久的一点积累的回顾。
ps:现阶段可能存在误解,欢迎指正~
关于实际业务场景模型的选择
实际业务中最后输出的一般都是评分卡模型,这里简单说明一下评分卡,由机器学习模型输出概率加上人为的变换将概率输出成分数,
其每个分数段可以一一对应模型输出的概率段。
为何选用评分卡:
1、首先这是一个行业大佬们沿用已久的风控模式,用的舒心,用的放心。
2、评分卡的评价标准主要是KS指,其fpr,tpr一一对应误杀率与识别率,ks值由误杀率-识别率得出,也可以称呼ks值为区分度,细化下来可以了解到每一个分数段对应的水平,在业务上有非常好的解释性。
3、(个人理解)为何不直接使用模型输出的具体值来作为风控输出,因为模型嘛,和概率有关,并非模型输出的即是正确的,而且若完全由模型输出决定,大部分情况下它的授信通过率还有误杀率都是无法让人接受的,所以选用评分卡,不同区间的对应不同区分能力,以及授信通过率,只需要找到自己能接受的水平就可以上线,并且在线上的时候,风控策略需要改变,若无需翻新模型,调节决策分数就好了,很方便。
简单说下日常工作中使用到的模型以及组合策略
评分卡基模型首选还是lr,因为他是线性模型,每一个入模的特征都可以做出解释,尤其是在模型报告的时候,听报告的一方会特别关注这个,比如实际业务中某特征越大说明客户风险越高,但是该特征对模型的效果相反越低越坏,若无法将造成这类现象的原因解释,那这个特征可能会考虑弃用。
其次他的稳定性(- -因为他简单,所以他稳定,不晓得这种理解对不对,求大佬们解惑)会略优于树模型,不易过拟合,有时候树模型喂的特征多效果特别好,报告也好看,但是上线拉稀(与某厂联合建模对方使用的树模型,结果对方返回效果严重过拟合)。
在日常工作中,树模型也会作为常用模型之一,使用最多的还是将一群特征打包成一个分数,然后带入LR中,用于最后的评分卡输出,(同时还可以作为线上的一个不决策的陪跑模型卖萌看看效果- -),当然如果能保证树模型的稳定性,选用高性能的树模型作为决策模型也是不错的选择。
最后补充一点思考和疑问,求大佬们指正
是关于模型过拟合问题,如果是在比赛中做出了一个过拟合的模型,无疑是宣判了死刑,但是在实际工作中往往是按时间划分的训练集与测试集,客群会有变动,且时间越接近当前的客群在不受其他因素影响的情况下可能会与当前客群更为接近,若模型过拟合,但是在测试集上效果不错,并且同时在线上测试也有不错的效果,线上特征与测试特征分布相似,线上集与测试集模型输出分数的PSI在接受范围,如果站在保结果的角度上来看,若能保证输出的结果有效且稳定,感觉也是可以上线使用的,各位大佬认为呢?
欢迎指正,感激不尽!