推荐算法之混淆矩阵
混淆矩阵是可视化方法属于监督学习.其主要用于比较分类结果和实际预测值,并可以把分类结果的精度显示在一个混淆矩阵中.
混淆矩阵是除了ROC曲线和AUG之外的另一个判断分类好坏程度的方法.
首先,先明确如下几个概念:
1、
真正类(TP):本身是正类,被预测为正类.
2、
假正类(FP):本身为负类,被预测为正类.
3、
真负类(TN):本身为负类,被预测成负类.
4、
假负类(FN):本身为正类,被预测成负类.
P=TP+FN 实际为正类的总数 N=TN+FP 实际为负类的总数
为了方便理解,这里举一个例子:有a,b,c,d,e,f,g,h,8个敌机和A、B两只大鸟,雷达能预测出a,b,c,d,e,f,g,h,A为敌机,并发出警报.在这里面敌机被全部预测出来,并把一只大鸟预测成敌机,实际工作中,预测没有问题,都能判断出敌机,但是增加了工作量.
abcdefghA | B
接下来,再说一下剩下的两个概念:
5、TPR(本身为正,被预测为正的比率) TPR = TPR = = 1 表示敌机被全部预测出来.
6、FPR(本身是负,被预测为正的比率) FPR = FPR = = 0.5 表示有50%的大鸟被判断为敌机.
根据混淆矩阵可以计算以下分类指标:
1、精确率 precision=TP/(TP+FP)表示在所有预测为正的情况中,有多少是真正的.比如上面被雷达判定为敌机的情况中,只有8种情况是对的. precision=8/(8+1) =
2、召回率 recall = TP/P 表示所有的真实情况被预测出来的比率和TPR计算方法一样.
3、准确率 正样本被预测为正,负样本被预测为负的比率accuracy=(TP+TN)/(P+N)
4、综合评价指标(F-Measure或F-score) F = 是precision和recall的加权调和平均数.
当参数a=1时,就是常见的F1,它综合了P和R的结果,当F1较高时说明实验方法比较有效.