1 何为 Imbalanced class problem
在分类问题中,有时候一种类别的数据会远远的多于另外一种类别,
但正是这些少量的类别的数据,往往又是极其重要的。
比如信用卡欺诈事件,该事件远远地小于信用卡未被欺诈的事件。
要从信用卡操作的数据中,识别出欺诈这一类别的事件,比例极其小,但确是及其重要的。
在大量的操作数据中找到欺诈事件,犹如大海捞针。
这个时候如果继续使用精度来评估分类器就不准确了。
因为即使把所有的信用卡操作数据,都判断为未欺诈类别,
其正确率也可以达到99.999......%,这种分类器明显是无用的。
针对Imbalanced class problem, 研究者提出了许多其它的参数来评估模型。
2 Confusion Matrix
2.1 相关概念
在Confusion Matrix中,
由Confusion Matrix 定义一些参数: