一、准确率
准确率(accuracy):对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。
由准确率,我们的确可以在一些场合,从某种意义上得到一个分类器是否有效,但它并不总是能有效的评价一个分类器的工作。举个例子,google抓取 了argcv 100个页面,而它索引中共有10,000,000个页面,随机抽一个页面,分类下,这是不是argcv的页面呢?如果以accuracy来判断我的工 作,那我会把所有的页面都判断为"不是argcv的页面",因为我这样效率非常(return false,一句话),而accuracy已经到了99.999(9,999,900/10,000,000),完爆其它很多分类器辛辛苦苦算的值,而我这个算法显然不是需求期待的,那怎么解决呢?这就是precision,recall和f1-measure出场的时间了.
二、精确率、召回率、f1
-
TP ——将正类预测为正类数(True Positive)
-
FN ——将正类预测为负类数(False Negative)
-
FP ——-将负类预测为正类
-
TN ——-将负类预测为负类数
真实为正 | 真实为负 | |
---|---|---|
预测为正 | TP | FP |
预测为负 | TN | FN |
准确率= T P ÷ ( T P + F P + T N