机器学习入门的第一个令人头大的概念区分关卡,就是什么乱七八糟的数据的判断的各种率。简直太影响学习的心情了有没有。
在看了几篇大佬的博客后,作者才终于慢慢的领悟了。(吐血)
现在,让我们有请本次的调查对象——李大爷!(欢呼声)
当然,不是一个,是一堆!一堆李大爷!(欢呼声)
这堆李大爷有好人也有坏人,
假设,我们现在有了一套算法来预判好大爷和坏大爷,这个预判的结果呢,有几个指标,分别是:
1.精度:让你给判断对了的大爷在所有大爷中的比例;(大爷欣慰)
2.错误率:让你给判断错了的大爷在所有大爷中的比例;(大爷骂娘)
3.查准率(precision):你判断对了的好大爷占你以为的好大爷的比例;
4.查全率(recall):你判断对了的好大爷占所有好大爷的比例。
看到这,你可能还是一脸懵逼,甚至还想骂人——“你大爷的”。
别急,我们来看一张神奇的图图:
在这张图里,我们见到了四个判断结果,分别是:TP,FN、FP、TN。
这几个瘪犊子是啥意思呢?
来看,他们其实是T,P,F,和N的组合,T代表判断对了,F代表判断错了,P代表认为是对的,N代表认为是错的。所以他们的通俗意思就是:
1.TP:你认为这几个大爷是好大爷,判断对了!——他们确实是好大爷。
2.FN:你认为这几个大爷是坏大爷,判断错了!——他们实际上是好大爷。
3.FP:你认为这几个大爷是好大爷,判断错了!——他们不是好大爷,是坏大爷。
4.TN:你认为这几个大爷是坏大爷,判断对了!——你找出来了坏大爷。(好棒棒)
这下是不是有些通透了?
那我们对照着前面我们给的定义来看这几个率:
1.精度:让你给判断对了的大爷在所有大爷中的比例:
是不是就可以表示为TP+TN/TP+FN+FP+TN呢?
2.错误率:让你给判断错了的大爷在所有大爷中的比例:
是不是就可以表示为FN+FP/TP+FN+FP+TN呢?
3.查准率(precision):你判断对了的好大爷占你以为的好大爷的比例:
对吧?(体现一个“准”字)
4.查全率(recall):你判断对了的好大爷占所有好大爷的比例。
这不就定了嘛?(体现了一个“全”字)
(大爷们接受完你的调查,终于可以骂骂咧咧的和老伴回家吃饭去了)
参考文献
[1] 周志华 《机器学习》
欢迎大家评论和指正,谢谢了您嘞。