信用卡评分中的误判问题说明

最新推荐文章于 2019-03-04 16:06:12 发布

mousever

最新推荐文章于 2019-03-04 16:06:12 发布

阅读量908

点赞数

分类专栏： DM

DM 专栏收录该内容

107 篇文章 7 订阅

订阅专栏

信用评分，本文的例子也是这块。在建立个人信用评分模型时，一般要求数据的包含了贷款者的还款历史，拥有还款历史的贷款者才能被清除地归为“好”或“坏”这两个类别。如果还款期尚在模型建立的时间窗口内，对各种类别的划分就不是那么直接了，这时一些账户就不能够确定地归为“好”或“坏”这两个类别。比如，在还款期内，一个有三笔或以上欠账的账户是“坏”的账户，而“好”账户则没有欠账，那么一个有两笔欠款的账户，只要它还没有达到三笔欠款，就不能把它归为“坏”的一类。这种“中间”账户（indeterminate，或者poor）的存在会给信用评分模型的建立带来很多麻烦，一种解决方案是直接剔除掉这些“中间”账户，但无疑这会失去很多有意义的信息。

看过一些研究，一般会有这么几种处理办法。把个人消费信贷的申请人分为三种：好的（good）、坏的（bad）和中间者（indeterminate，或者poor），按照这三个输出属性的不同组合，就产生了以下5 个模型：

模型1：多项模型，输出属性分为以上3 类
模型2：二项模型，输出属性分为good、bad（直接删除poor）
模型3：二项模型，输出属性分为good（包含poor）、bad
模型4：二项模型，输出属性分为good、bad（包含poor）
模型5：二项模型，输出属性为为good、bad，这两个类别都包括了根据模型2 估计出来的poor 类别，这些poor 或者被估计为good，或者被估计为bad。

跟上文提到的类似，可以定义一个总命中率（total hit rate），它测量的是在验证样本中，模型正确分类的个数占总数的百分比，还有平均命中率（average hit rate）指good、bad、poor 三个类别的命中率的平均。这两个指标应该也挺好用。

一些实证研究表明（见下），在命中率方面，径向基网络至少给出了不弱于Logistic 回归的结果，但处理“坏”账户的能力更强一些。在以上5 个模型中，多项模型（把poor 作为单独的一类）的命中率最低，表明有必要在建立模型时把“中间”账户归为“好”账户或者“坏”账户。另外，神经网络模型倾向于把 “中间”归为“坏”账户，而Logistic 回归模型则倾向于把它归于“好”账户，所以模型2（直接删除掉“中间”账户）和模型5（poor 类别的账户根据模型2 而指派到good或者bad 类别）似乎更稳定一些。