看过一些研究,一般会有这么几种处理办法。把个人消费信贷的申请人分为三种:好的(good)、坏的(bad)和中间者(indeterminate,或者poor),按照这三个输出属性的不同组合,就产生了以下5 个模型:
模型1:多项模型,输出属性分为以上3 类
模型2:二项模型,输出属性分为good、bad(直接删除poor)
模型3:二项模型,输出属性分为good(包含poor)、bad
模型4:二项模型,输出属性分为good、bad(包含poor)
模型5:二项模型,输出属性为为good、bad,这两个类别都包括了根据模型2 估计出来的poor 类别,这些poor 或者被估计为good,或者被估计为bad。
跟上文提到的类似,可以定义一个总命中率(total hit rate),它测量的是在验证样本中,模型正确分类的个数占总数的百分比,还有平均命中率(average hit rate)指good、bad、poor 三个类别的命中率的平均。这两个指标应该也挺好用。
一些实证研究表明(见下),在命中率方面,径向基网络至少给出了不弱于Logistic 回归的结果,但处理“坏”账户的能力更强一些。在以上5 个模型中,多项模型(把poor 作为单独的一类)的命中率最低,表明有必要在建立模型时把“中间”账户归为“好”账户或者“坏”账户。另外,神经网络模型倾向于把 “中间”归为“坏”账户,而Logistic 回归模型则倾向于把它归于“好”账户,所以模型2(直接删除掉“中间”账户)和模型5(poor 类别的账户根据模型2 而指派到good或者bad 类别)似乎更稳定一些。