度量指标
评估模型的好坏需要一个度量方法 ,选择不同的度量方法可能会导致最后对模型的选择不同。
准确率(Accuracy):分类正确的样本占总样本个数的比例。
精确率(Precision):分类正确的正样本个数占分类器判定为正样本个数的比例。
召回率(Recall):分类正确的正样本个数占真正的正样本个数的比例。
当不同类别的样本比例非常不均衡时,将准确率作为分类性能的指标非常局限,可以使用更加有效的平均准确率(每个类别下的样本准确率的算数平均)作为模型评估的指标。
精确率更为保守,在很有把握时才将样本预测为正样本,因此会漏掉很多正样本;召回率更为激进,与精确率相反。因此精确率、召回率两者矛盾又统一。通常要绘制P-R曲线,单个点对应的精确率和召回率并不能全面地衡量模型的性能,画曲线能对模型进行更为全面的评估。平衡点(BEP)、F1值(精确率和召回率的调和均值)、ROC曲线也能综合反映一个排序模型的性能。
ROC曲线的绘制:二值分类问题中,模型的输出一般都是预测样本为正例的概率,概率大于该值则判为正例,小于该值判为负例,计算FPR和TPR,形成ROC曲线上的一点。通过不断移动截断点,则可绘制出ROC曲线。