分类问题是有监督学习的一个核心问题
性能度量
分类准确率(accuracy): 分类器正确分类的样本数与总样本之比
accuracy=(TP+TN)/(P+N) [假设只有两类样本,正例(Positive)和负例(Negative)]
精确率(precision): 反应模型判定的正例中真正正例的比重
precision=TP/(TP+FP)
召回率(recall): 总正例中被模型正确判断的比重
recall=TP/P
P-R曲线: 即precision-recall曲线,r为自变量p为因变量
F值(Fβ-score): 精确率和召回率的调和平均,β是权重因子,表示更侧重p还是r,β一般大于0,当β=1时(表二者同等重要),退化为F1(常用),
Fβ-score=((1+β^2)×precision×recall)/(precision+recall)
ROC曲线: 横轴为FP/N,负例误报为真的的概率,纵轴为TP/P正例中被正确判断的比例