F-measure 与代价敏感评价指标

最新推荐文章于 2022-04-08 14:34:09 发布

闵帆

最新推荐文章于 2022-04-08 14:34:09 发布

阅读量616

点赞数 3

分类专栏：机器学习基础文章标签：机器学习神经网络线性代数

本文链接：https://blog.csdn.net/minfanphd/article/details/119923457

版权

机器学习基础专栏收录该内容

17 篇文章 6 订阅

订阅专栏

以前都是直接使用 Accuracy, Precision, Recall, F1-measure 这些评价指标, 没有深究其原因, 更没有与误分类代价放在一起分析. 本贴就来杠这个事情.

1. 例子

先找一个百度百科的例子并进行适当修改.
例 1 假如某个班级有男生 80 人, 女生 20 人, 共计 100 人. 目标是找出所有女生. 一号学习器 $L_1$ 挑选出 30 个人, 其中 18 人是女生, 另外还错误的把 12 个男生也当作女生挑选出来了. 作为评估者的你需要来评估 (evaluate) 他的工作.

2. 混淆矩阵

例 1 可以看作是一个二分类问题, 其混淆矩阵为:

Predicted \ actual	Yes	No
Yes	$T P = 18$	$F P = 12$
No	$F N = 2$	$T N = 68$

其中:

$T P$ 表示正确挑出来的女生数;
$F P$ 表示错误挑出的男生 (以为是女生) 数;
$F N$ 表示未挑出的女生 (以为是男生) 数;
$T N$ 表示正确挑出的男生数 (在本例中, 没挑选就默认分类为男生).

3. 评价指标

3.1 准确率

$\frac{TP + TN}{TP + FP + FN + TN} = \frac{86}{100} \tag{1}$
它可以直接地推广到多分类问题.

3.2 精确率 (precision)

$\frac{TP}{TP + FP} = \frac{18}{30} \tag{2}$
关心被选择部分 (即被分类为女生的部分) 有多大比例正确.

3.3 召回率 (recall)

$\frac{TP}{TP + FN} = \frac{18}{20} \tag{3}$
关心女生有多大比例被挑出来.

3.4 综合评价指标 $F$ -measure

对于同一学习器, 随着挑选出来的学生 (即分类为女生) 数量的增加, $P$ 一般情况下会减小, $R$ 则会增加 (肯定不会减小). 需要一个综合评价指标
$\frac{(\alpha^2 + 1)PR}{\alpha^2 (P + R)} \tag{4}$
一般取 $\alpha = 1$
$\frac{2PR}{P + R} = \frac{2\frac{TP}{TP+FP}\frac{TP}{TP + FN}}{\frac{TP}{TP + FP} + \frac{TP}{TP + FN}} = \frac{2 TP}{2 TP + FP + FN} = \frac{72}{100}\tag{5}$

3.4 分析

Accuracy 仅关心多大比例的正确性, 而不区分哪种正确 (错误).
Precision 和 Recall 则更多地关注目标类别 (女生).

二号学习器 $L_2$ 挑出了 34 个人, 其中 20 个女生, 即: $T P = 20$ , $F P = 14$ , $F N = 0$ , $T N = 66$ . 则 $\frac{86}{100}$ , $\frac{20}{34}$ , $\frac{20}{20} = 1$ , $\frac{40}{54} = \frac{74}{100}$ .
三号学习器 $L_3$ 挑出了 6 个人, 全为女生, 即: $T P = 6$ , $F P = 0$ , $F N = 14$ , $T N = 80$ . 则 $\frac{86}{100}$ , $\frac{1}{1} = 1$ , $\frac{6}{20}$ , $\frac{12}{26} = \frac{46}{100}$ .
由此可见, 三个学习器具有相同的 Accuracy, 但不同的 $F 1$ , 且 $R$ 越高 $F$ 越大. 可以试着证明：
性质 1: 根据同一个数据集获得的学习器, Accuracy 相同的时候, $R$ 越大则 $F 1$ 越大.

由于 $R$ 仅关注女生, 使用 $F$ 导致了男女不平等. 这使我想起了代价敏感分类. 但 (4) 式中的参数 $\alpha$ 并没有倾向于 $R$ , 所以用它直接来做代价敏感学习的评价指标不合适.

4 代价敏感的评价指标

二分类问题有两个误分类代价. 不失一般性, 可以固定一个, 将另一个看作比例. 假设男生误分类为女生的代价为 $1$ 元 , 女生误分类为男生的代价为 $c$ 元.
则总的误分类代价 (即分类器收到的罚款) 为
$\times FN \tag{6}$
相应可以定义平均误分类代价. 在这里就不写了.
令 $c = 5$ ,
$L_1$ 收到总的罚款为 $\times 2 = 22$ (元);
$L_2$ 收到的总罚款为 $\times 0 = 14$ (元);
$L_3$ 收到的总罚款为 $\times 14 = 70$ (元).

现在看来, 跟 $F$ -measure 好像没啥关系.

再想想

5. 附录

性质1 的证明
分别记学习器 $L_1$ 与 $L_2$ 产生的混淆矩阵的相应值为 $TP_1$ , $FP_1$ , $FN_1$ , $TN_1$ 与 $TP_2$ , $FP_2$ , $FN_2$ , $TN_2$ .
该性质是需要证明
$\left\{\begin{array}{l}TP_1 + TN_1 = TP_2 + TN_2\\ FP_1 + FN_1 = FP_2 + FN_2\\ \frac{TP_1}{TP_1 + FN_1} < \frac{TP_2}{TP_2 + FN_2} \end{array}\right. \Rightarrow\frac{2 TP_1}{2 TP_1 + FP_1 + FN_1} < \frac{2 TP_2}{2 TP_2 + FP_2 + FN_2}$