精确率召回率等相关知识点经常出现在笔试题中,如果仅考查精确率召回率并不难理解记忆。但是有时结合ROC等知识点时,TP,NP,TN,FN,4个不易区分的符号及各种比率会对初学者的理解产生干扰,本文将几个知识点结合起来举例解释,希望能方便大家理解记忆。
背景
当我们那一个已知结果的数据对算法进行测试时,不难发现算法对数据判断出现的错误。
当待处理数据简单分为正负两类时,显然
对于原数据来说,只有正负两种可能。对于判断结果来说,也是正负两种可能。
但是当我们站在”上帝”的角度上来看,原数据的正负,和判断结果的正负会把整个数据分成4份。
TP : True Positive (真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率
TN : True Negative(真负 , TN)被模型预测为负的负样本 ;可以称作判断为假的正确率
FP : False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率
FN : False Negative(假负 , FN)被模型预测为负的正样本;可以称作漏报率
总结:两个词中,第二个词是预测结果(算法判断的)。2个词合在一起的是原数据事实。
例如:10个样本里,有6个正,4个负。(事实)
经过一个机器学习算法判断后,认为有7个正,3个负。(判断的)
假设:
TP:被预测为正的7名样本里,本来就是正,又被预测为正的有5人。
TN:被预测为负的3名样本里,本来就是负,又被预测为负的有2人。
FP:被预测为正的7名样本里,本来就是负,又被预测为正的有2人。
FN:被预测为负的3名样本里,本来就是正,又被预测为负的有1人。
公式
精确率Precision Rate: P=TP/(TP+FP)