1.ROC曲线
我们知道,在很多学习器中是通过将既定的阈值与学习器对测试样本预测值(实值/概率)进行比较。如果大于阈值则将其判为正类样本,小于阈值将其判为负类样本。这个实值或者概率预测结果的好坏,直接决定了学习器的泛化能力。
我们可以根据学习器的预测结果对测试样本进行排序,将最有可能的正例排在前边,最不可能的排在后面。这样我们可以在这个序列中放置一个截断点来将样本分为两类,前面一部分判为正例,后面一部分判为负例。
在不同的实际应用中,我们要根据不同的需求来选取不同的截断点。例如在推荐系统中,我们更在乎系统给用户的推荐中用户喜欢的占比,而不是把所有用户喜欢的都推荐出来。这样我们就可以在排序中选择位置靠前的截断点进行截断,以保证更大的查准率。而在有些应用任务中则更重视查全率。
所以根据学习器的预测值所产生的排序的好坏,体现了综合考虑学习器在不同任务下的“期望泛化性能”的好坏。而ROC曲线就是从这个角度出发来研究学习器泛化性能的有力工具。所谓ROC曲线,全称为Receiver Operating Characteristic (受试者工作特征)曲线 ,它的纵轴为真正例率TPR(True Positive Rate),横轴为假正例率FPR(False Positive Rate),分别定义为:
真正