论文阅读笔记（8-3）---A Study on Threshold Selection for Multi-label Classification

最新推荐文章于 2023-01-16 09:49:46 发布

打着灯笼摸黑

最新推荐文章于 2023-01-16 09:49:46 发布

阅读量173

点赞数

分类专栏：心电图分类文章标签：多标签分类阈值优化 F-measure 启发式算法稀有标签

本文链接：https://blog.csdn.net/qq_39594939/article/details/119035981

版权

心电图分类专栏收录该内容

17 篇文章 29 订阅

订阅专栏

A Study on Threshold Selection for Multi-label Classification

Section5 实验和分析
Section6 结论

Section5 实验和分析

我们提出并分析了宏观平均F-measure、微观平均F-measure和精准匹配率三种优化结果，还讨论了 $f b r$ 启发式的新性质。

优化宏观平均F-measure

表5显示了优化宏观平均F-measure的结果。显然，所有算法1-3都比二进制方法给出了更好的结果。因此，在进行多标签分类时，应该始终调整阈值。
在这里插入图片描述
对于一半的数据集，algorithm 1的宏观平均F-measure比使用 $f b r$ 的algorithm 2-3差。此外，algorithm 2（固定 $f b r$ ）的性能类似于algorithm 3（交叉验证选择 $f b r$ ）。总的来说， $f b r$ 是一种有用的启发式方法。

分析 $f b r$ 启发式

通过分析表5可以得知：

当阳性数据的数量非常少时通常会降低阈值，并改进宏观平均F-measure。 表6显示了对OHSUMED数据的第五个子集运行实验时的细节。我们调查了对于宏观平均F-measure贡献最大的四个标签。我们给出训练集中的实例数、列联表以及algorithm 1和algorithm 2选择的阈值。显然，二进制问题中正数据的数量非常少。 algorithm 2降低了阈值，显著提高了F-measure。
我们解释了 $f b r$ 导致阈值降低的原因。由于标签非常少，验证集可能不包含任何阳性实例。我们最终得到以下决策值场景，在该例子中，只有两个阳性实例，并且都在训练集中。为了分离正、负训练实例，很可能得到的SVM阈值大于验证数据的最高决策值，而验证数据只包含负的点。算法1不进一步调整
对于任何值，验证F-测度为零。但是对于算法2，由于零F-测度小于fbr，所以阈值被降低。

当验证集包含有阳性实例时，可能出现：

从algorithm 1得到的最佳阈值得到的F-measure等于1，高于 $f b r$ 。因此，algorithm 2不进一步调整阈值。对不同交叉验证折叠的阈值进行平均后，algorithm 2的最终阈值小于algorithm 1。
一个紧迫的问题是，这种变化是否会导致门槛过低。我们认为，一般来说，这个问题不会发生。现在这些标签很少见，algorithm 1原来的TP（真阳性）数一般为零。因此，降低阈值不会迅速增加FP（假阳性）的数量。因此，微平均F-measure受影响不大。对于宏观平均值，由于原始的F-measure接近于零，通过预测更多的点为正，获得更好的F-measure的可能性很高。请注意，宏平均F-measure是标签F-measures的平均值。如果有许多非常罕见的标签，在使用algorithm 1之后，相当多的标签的F-measure为零。其中一些改进显著提高了平均值。因此，在表5中，algorithm 2给出了比algorithm 1更好的宏平均F-measure。
当正数据个数较少但不太小时， $f b r$ 通过提高阈值来避免大量的FP。 对于相同的数据（OHSUMED的第五个子集），表7显示出对于一些标签， $f b r$ 启发式显著减少了FP（假阳性）的数量。以标签65为例，它占总共5000个实例中的28个。在algorithm 1中，预测五次验证次数的最佳F-measure为0.0127。没有单一的数据可以达到指定的 $f b r$ 值0.1。因此， $f b r$ 启发式将阈值设置为最高决策值。在测试中，algorithm 1预测3104个实例为阳性，但测试集中只有27个阳性实例。在 $f b r$ 设置下，algorithm 2和3都预测没有实例为正。因此， $f b r$ 将对微观平均F-measure的影响降至最低，而代价是略微降低宏观平均F-measure。
在表5中，由于微平均F-measure综合考虑了所有标签，因此改进并不显著。然而，我们看到， $f b r$ 是防止FP爆炸。

如果我们根据标签的数据数量对标签进行排序，那么它们大致分为三个部分。对于第一段，有足够的数据，得到的F-测度是
大于 $f b r$ ，所以阈值保持不变。对于第二部分，algorithm 2为了保守预测提高了阈值。对于第三部分，标签很少出现，为了更好的预测降低阈值。有时，两个片段明显重叠，因此性能并不好。然而， $f b r$ 启发式方法通常是有用的，上面的分析给出了这种方法背后的基本原理。

优化微观平均F-measure

使用与第5.1节相同的设置，我们最大化微平均F-measure。由于algorithm 2的与之前实验中的algorithm 3结果类似，因此在随后的比较中，我们排除了algorithm 3。如第2节所述，标签的顺序可能会影响优化微平均F-measure的结果。因此，我们随机排列标签并报告十次运行的平均值。对于具有多个训练和测试对的数据，我们将每个对运行几次，并将运行总数保持为10次。表8显示了结果。
在这里插入图片描述
显然，algorithm 1和algorithm 2获得了比二进制方法更好的微观平均F-measure。因此，调整阈值可以有效地优化目标度量。显然，algorithm 1和algorithm 2获得了比二进制方法更好的微观平均F-测度。因此，调整阈值可以有效地优化目标度量。 $f b r$ 启发式算法（algorithm 2）显著改进了宏观平均F-measure，但微观平均F-测度相似。这种情况与表5相同。

与表5相比，在表8中可以获得更好的微观平均F-measure。由于表8的目标是优化微观平均F-measure，因此这一结果是预期的。但是，宏观平均F-测度通常低于表5中的值。下表显示了使用算法2优化宏观平均和微观平均F-测度2的酵母组第五次运行的详细信息。
在这里插入图片描述
调整微观平均F-measure会预测得到的阳性要少得多；例如，阈值通常更高，因此我们通过减少误报的数量成功地提高了微平均F-measure。大多数其他数据集也会出现同样的情况。因此，更好的微观平均F-measure是以较低的宏观平均F-measure为代价的。

我们研究了循环优化对微平均F-measure优化的影响。表9总结了对非循环优化结果的改进。循环优化算法在达到停止条件（14）之前通常需要三到四次迭代。结果仅与表8中的结果相似或略好于表8中的结果。在实践中，为了缩短训练时间，可以只优化每个标签一次。
在这里插入图片描述

优化精确匹配比

我们研究了当目标是优化精确比时，algorithm 1和algorithm 2的性能，我们使用了与前两个实验相同的设置，结果如表10所示。
在这里插入图片描述
观察结果与优化其他措施的结果相似。与二进制方法相比，调整阈值（algorithm 1-2）显著改善了所有三个度量。至于 $f b r$ 启发式，它主要提高是宏观平均F-measure，而不是其他两个。当前的优化目标是精确匹配率。因此，宏观平均值（微观平均值）F-measure低于表5（表8）。

通过调整scene数据的阈值，algorithm 1和algorithm 2使二值化方法的结果分别提高了24.8%和21%。我们进行了详细的调查。我们研究了algorithm 1的精确匹配比为0.608的运行。测试集有1196个实例，但只有103个实例是多标签的。正确预测的实例数如下所示：
在这里插入图片描述
仅与一个标签关联的实例比与多个标签关联的实例更容易预测。对这些单标签实例的改进导致了88%的性能提高。对于其他多标签的数据集，精确匹配率的提高要小得多（<10%）。

接下来，我们研究当目标准则是精确匹配比时，循环优化是如何执行的。与非循环优化相比的改进如表11所示。与优化微平均F-measure（循环优化没有帮助）的情况不同，在这里，大多数数据集的精确匹配率略有提高。
在这里插入图片描述

附加实验

对于相同的测量，我们比较了它是和不是目标优化标准时的结果。例如，当我们优化微观平均F-measure或精确匹配比率时，宏观平均F-measure有多好？表12显示了比较结果。阅读表格的每一行可以发现，微平均F-measure对其他测度的优化不太敏感。这一结果可能是由于微平均F-measure将所有标签考虑在一起，并且受一些很少出现的标签的影响较小。此外，由于精确的匹配比不考虑部分匹配，因此阈值的细微变化很容易导致非常不同的匹配比.
我们在表13中总结了二进制方法的改进，以此结束本节。不考虑循环优化。显然，我们在优化宏观平均F-measure方面非常成功。

Section6 结论

调整二值化方法中的决策阈值是提高多标签分类性能的一种简单有效的方法。由于二值化方法将标签分开处理，因此优化具有相同性质的度量更容易：宏平均F-measure（可分解为测量每个标签的独立任务）的改进比其他两个度量（微观平均F-measure和精确匹配比）的改进更大。

当一些标签很少出现时， $f b r$ 启发式提高了性能。在这种情况下，调整阈值会超出验证实例的范围。我们证明了这种启发式算法可以根据两种不同的情况很好地提高/降低阈值。它比其他方法更好地帮助宏观平均F-measure。

虽然直观地说，循环优化可以提高性能，但我们的结果表明，它对性能的改善是微乎其微的。因此，在实践中，优化每个标签一次就足够了。

打着灯笼摸黑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读笔记（8-3）---A Study on Threshold Selection for Multi-label Classification

A Study on Threshold Selection for Multi-label Classification第五节和第六节
复制链接

扫一扫