因果模型五:用因果的思想优化风控模型——因果正则化评分卡模型
我们调研因果模型的出发点在于要以一种新颖的因果视角去解决金融领域模型存在的问题,所以我们的落脚点也应该在如何应用因果的思想或方法,去提高评分卡模型的精度或者稳定度。这个领域的相关文献较少,我们以Causally Regularized Learning with Agnostic Data Selection Bias这篇文章为例,介绍一下该文提出的因果正则化评分卡是如何在因果思想和信贷评分卡应用之间真正架起一座桥梁,把因果推断融入逻辑回归的。
一、模型中的因果和相关
我们使用传统逻辑回归方法建立评分卡模型时,都不会去考虑变量与目标之间到底是因果关系,还是相关关系,只要变量有预测力,就能入模型。比如上图中,我们有两个变量:树叶是否变绿和气温是否上升,用来预测蚊子是否开始变多。如果不考虑去除变量相关性,我们建立的评分卡往往会将两个变量都融入进去,因为两个变量对蚊子是否变多都有很强的预测性。一旦我们观测到气温开始升高,河边柳树开始抽芽变绿,那不久蚊子就会变多,这种预测相当准确,虽然树叶变绿并不是导致蚊子变多的原因,但不影响我们做出准确预测。可以说,我们使用的传统评分卡都是这个情况。
那这种情况有什么问题呢?我们看这样一个例子,假设现在我们应用评分卡的环境变了。这个环境里面,全是枯死的树,任你什么季节,它都不可能再有树叶变绿了。这个时候我们只观测到了气温升高,没有看到树叶变绿,用这样的评分卡预测蚊子是否变多变得不确定了,评分卡的效果大打折扣。这就不应该了,气温升高才是蚊子变多的根本原因,预测结果不应该受到树叶是否变绿的影响。
那有没有一种方法,能够让我们在建立评分卡的时候就排除掉那些只是相关,而非因果的变量,或者排除掉每个变量中相关的部分,只保留因果的部分呢?这样我们就能得到一个蚊子只和气温有关的因果评分卡。这样的评分卡效果就不会受环境变化的影响。
再来看文章中举的一个图像识别的例子。我们现在要建立一个识别图片中动物的模型,但在训练样本中,大多都是背景为草地的狗狗图片。如果使用传统的模型方法进行建模,那模型很容易会把绿草地当成一个重要的特征。如果我们用这样的模型去预测草地背景的狗狗图片时,那准确度还是相当高的。但问题出在需要预测的图片不都是草地背景,如果换成雪地中的狗狗图片,那传统模型的预测就失效了。所以我们需要一个真正能把握本质的因果模型,这样的模型能够提取出图片中最本质的特征(狗狗),而排除掉只有相关性的噪音特征(草地背景),才能保证模型在各种背景下都有效。
二、不可知样本选择偏差
我们例子中所列举的,训练时是春天会发芽的柳树,而预测时变成了全都枯死的树,或者一年四季树叶都绿的松树;或者图像识别中,训练时是绿草地上的狗狗,而预测时变成了雪地上或车里的狗狗,这种预测环境和训练环境不一样的现象,在学术上有个定义,叫做不可知样本选择偏差(agnostic selection bias),指的就是训练样本和测试样本分布不一致。当明确了这个定义,我们要解决的问题也就可以定义如下:
给定训练样本 D t r a i n = ( X t r a i n , Y t r a i n ) D_{train} = (X_{train}, Y_{train}) Dtrain=(Xtrain,Ytrain),其中 X t r a i n X_{train} Xtrain代表变量, Y t r a i n Y_{train} Ytrain代表标签。任务就是学习一个参数为 θ \theta θ的分类器 f θ ( ) f_\theta() f