一般来说,模型的制定包括几个方面:分析单个变量的预测能力、减少变量的数量、选择适当的模型方法、确定模型的变量组合和权重。
1. 分析单个变量的预测能力
从银行的原始数据库中可以提炼出几百个变量,但是不是所有的预测变量都具有预测能力,同一个变量也不一定在所有的模型中具有同样的预测能力。
通过分析单个变量的预测能力可以找到预测能力强的变量,缩小候选变量的范围。
例如:针对连续性的预测变量,我们可以先把他分成若干个栏,分栏不能太多,导致栏位样本数量过少二置信度不够;也不能分栏过少,降低模型的分别率。各个栏能够明显的区分坏账率,如果经过分栏之后发现坏账率并没有发生明显变化,则认为这个预测变量的预测变量是弱的,会剔除掉。
2. 减少候选变量的数量
经过步骤1的单变量的预测能力,可以剔除掉没有预测能力的变量。但是保留下来的变量数量往往还有很多,而且他们之间可能存在较大的相关性,都纳入到模型中会造成模型的多重共线性,降低模型的预测能力。
所以你还需要解决预测能力较强的变量之间的多重共线性,常用来解决多重共线性的统计方法有相关系数分析、变量类聚分析、因子分析、主成分分析。
3. 选择适当的模型方法
对于二元性结果的预测,最流行的是逻辑回归和神经网络。
4. 确定模型的变量组合和权重
经过前面对变量的分析处理,有时候会需要将几个变量组合在一起形成一个新的变量,一般认为进入到模型的变量最好在8-15个,并根据统计原理分配到相应的评分权重。
这些变量往往是根据各种统计指标以及业务人员的经验相结合确定进入模型。但是还需要满足一些其他规定:
一是合法性。如性别、种族等。
二是合理性。如认为用户的付款额高就具有较高的风险,即付款额越高,风险越高,这与我们一般的认识是相反的。有可能是因为用户的借款额较高导致的付款额高,所以我们应该考虑的是用户的借款额进入模型。
三是可解释性。我们建立模型之后,重要的是向业务人员解释模型的依据,以及在拒绝申请人申请信用卡时说明被拒原因,所以模型中的变量要具备可解释性。
四是可实施性。如果某些变量的预测能力很强,但是获取成本较高,也是不被建议纳入模型中的。