关于精确率与召回率、PR曲线的理解
1.精确率
precision在西瓜书上被称作查准率
P
=
T
P
T
P
+
N
P
=
被
判
定
成
正
例
的
正
例
被
判
定
成
正
例
的
正
例
+
被
判
定
成
正
例
的
反
例
.
.
.
.
.
.
(
1
)
P=\frac{TP}{TP+NP}=\frac{被判定成正例的正例}{被判定成正例的正例+被判定成正例的反例}......(1)
P=TP+NPTP=被判定成正例的正例+被判定成正例的反例被判定成正例的正例......(1)
例子:搜索引擎搜索到信息中用户感兴趣的内容所占的百分比
搜索到的信息:乱七八糟有对有错→TN+FP
用户感兴趣的内容:用户认为对的→TN
相当于电影《黑水》中杜邦公司给比洛特的全部有关的无关资料,让他在里面找
2.召回率
recall在西瓜书上被称作查全率
R
=
T
P
T
P
+
F
N
=
被
判
定
成
正
例
的
正
例
被
判
定
成
正
例
的
正
例
+
被
判
定
成
反
例
的
正
例
.
.
.
.
.
.
(
2
)
R=\frac{TP}{TP+FN}=\frac{被判定成正例的正例}{被判定成正例的正例+被判定成反例的正例}......(2)
R=TP+FNTP=被判定成正例的正例+被判定成反例的正例被判定成正例的正例......(2)
例子:搜索引擎搜索到的用户感兴趣的内容占互联网上所有与用户想要的信息相关内容的百分比
搜索到的用户感兴趣的内容→TP
互联网上所有与用户想要的信息相关内容:用户看到的与没搜索到被埋没的信息→TP+FN
是泰坦尼克号看到的冰山一角下的山体
3.PR曲线
利用置信区间范围的大小计算当前的P、R
可以看出P和R是成反比的.
借助公式(1)我们可以理解当P越接近于1时,TP的数量不变时,FP的数量会相对减少,即被误认为正例的反例的数量减少,这就意味着以预测的视角来判断目标(正例)的标准相对严格,滥竽充数的就少了。
借助公式(2)我们又可以看出,R接近于1,在保持TP的数量同时,FN的数量会相对减少,即被误认为是反例的正例数量减少,正例代表特征不明显的正例仍然会被放在正例集中,就是女装大佬装的再像都要进男厕所,这样我们将R的增大理解为判断标准的放宽,如此就少了不少漏网之鱼。
举个例子,假如你是男更衣室的守门员,你的目标是不放过每一个应该进男更衣室的男生,不放过一个误闯男更衣室的女生;那么如果你多注意女汉子,那么你的精确度(查准率)就相对大了一些;如果你更关注女装大佬,那么你的查全率(召回率)就会大一些。
这样也就呼应了以上图像的下落趋势。
参考:
周志华《机器学习》
链接: P-R曲线深入理解.