论文阅读笔记（8-1）---A Study on Threshold Selection for Multi-label Classification

最新推荐文章于 2024-01-29 07:45:00 发布

打着灯笼摸黑

最新推荐文章于 2024-01-29 07:45:00 发布

阅读量289

点赞数

分类专栏：心电图分类文章标签：算法深度学习机器学习

本文链接：https://blog.csdn.net/qq_39594939/article/details/118857151

版权

心电图分类专栏收录该内容

17 篇文章 29 订阅

订阅专栏

A Study on Threshold Selection for Multi-label Classification

摘要
简介
二值方法、评价方法和优化方法

摘要

多标签分类在文本分类、多媒体检索以及很多其他领域都很有用，常用的多标签方法是二进制法，它为每个标签都构造了一个决策函数。在某些应用中，调整二值化方法的决策函数的阈值可以显著提高算法的性能，但这方面的研究还很少。本研究对阈值的选取进行了详细的研究。

简介

近年来，多标签分类在许多领域都有了广泛的应用。多标签分类训练对于每个实例 $x$ ，预测得到所有可能的标签 $d$ ，相比之下，多分类问题一个实例只与一个标签有关系，并且模型只预测最有可能的一个标签。因此，多标签分类是多分类问题的扩展。

目前最有效方式是二值方式，对于每个标签，与正标签相关联的数据作为正样本，其他作为负样本，来训练分类器。因此，如果有 $d$ 个标签，则该方法构造 $d$ 个决策函数。在预测中，如果相应的判定值为正，则实例与标签相关联。

对于二进制方法的每个决策函数，我们可以调整相应的阈值作为正/负预测的切入点。

二值方法、评价方法和优化方法

二值方法

这是在多标签中最简单常用的方法。给出 $l$ 个训练样本 $x_{1},...,x_{l}∈R^{n}$ 和 $d$ 个标签，我们训练了 $d$ 个决策函数：
在这里插入图片描述

决策函数 $f_{j}(x)$ 是通过用与 $j$ 相关的训练样本为正，其他训练样本为负来构造。以支持向量机（SVM）为例，第 $j$ 个决策函数来源于求解以下优化问题：
在这里插入图片描述
其中 $C$ 是惩罚参数， $y_{j}^{i}$ 是二值函数 $y^{i}=[y_{1}^{i},...,y_{d}^{i}]^{T}∈\{0,1\}^{d}$ ，表示第 $i$ 个实例的一个元素。注意到（2）中支持向量机通过一个函数φ将数据映射到高维空间。

对于预测，当且仅当 $f_{j}(x)＞0$ 时，标签 $j$ 与 $x$ 相关联。例如当 $d = 3$ 时，我们对实例 $x$ 有如下决策值：
在这里插入图片描述
因此我们对实例 $x$ 预测的标签为1和3。

引入一个阈值 $T_{j}$ ，使得实例 $x$ 与标签 $j$ 相关联的充要条件是：
在这里插入图片描述
显然对于二进制方法 $T_{j}=0$ ，调整 $T_{j}$ 可以获得更好的预测。

评价标准

传统的多分类任务的评价标准为准确率，在多标签分类中，准确率的直接扩展是精确匹配比，它是当且仅当所有相关标签都正确时才认为正确。但是，这个比率可能不是最合适的性能度量，因为他对于部分匹配不做计算。Tague（1981）提出了两个不同的基于F-measure的测度：宏观平均和微观平均F-measure，它们都考虑了部分匹配。

Exact Match Ratio

假设有 $\hat{l}$ 个测试案例， $y^i$ 为第 $i$ 个安利的真实标签向量， $\hat{y}^i$ 是预测标签向量，
在这里插入图片描述

它是传统数据分类精度的直接延伸。这个标准的缺点是它不考虑部分匹配。

Macro-average and Micro-average F-measures

信息检索系统最常用的性能度量之一是F-measure，它是精确度（P）和召回率（R）的调和平均值：
在这里插入图片描述
对于标签 $j$ ，

为了将F-measure从单标签扩展到多标签，Tague提出了两种方法，macro-average F-measure是F-measure标签的非加权平均；micro-average 考虑所有实例的预测，并计算所有标签的F-measure：

Optimizing Measures

本文在采用二元方法的情况下对measures进行优化，其中预测的标签向量 $\hat y$ 由 $d$ 个决策函数控制。这种情况下，一个measure是（1）中 $d$ 的决策函数的函数 $m(f_{1},...,f_{d})$ 。

利用函数 $f_{1},...,f_{d}$ 得到预测标签 $\hat y^{1},...,\hat y^{\hat l}$ ，同时利用真实标签向量 $y^{1},...,y^{\hat l}$ 。由于测试实例的真实标签向量不可用，我们将可用的数据划分为训练/验证子集，并提高了验证集的性能。因此，可以通过 $m$ 来优化measure：
在这里插入图片描述
但是（9）是一个很难的全局优化问题，更合理的目标是改进二进制方法。从二元方法的决策函数出发，每次调整一个 $f_i$ 并对其他进行修正，算法描述如Procedure 1。

在实际中，仅用一个函数进行measure最大化是比较困难的，因此可以通过得到满足条件的任意 $f_{k}$ ：
在这里插入图片描述
对于决策函数 $f_{k}$ 的调整有一些不同的方法，这里只考虑在决策函数（3）中的阈值 $T_{k}$ 的改变，表1解释了不同的阈值如何得到不同的F-measures。

表1：该表格展示了决策阈值如何影响宏观平均和微观平均F-measure，对每个标签，实例根据其决策值排序。虚线表示切割点。（a）真实标签向量；（b）预测的一个例子：为两个实例的两个标签都预测为正；（c）预测的另一个例子：分类器通过降低阈值来预测更多的正实例。（b）和（c）的宏观平均F-measure分别为0.6和0.452，微观平均F-measure分别为0.6和0.462。
在这里插入图片描述

如果目标度量是宏平均F-measure，那么第k个子问题（8）就变为：
在这里插入图片描述
上述问题可以等于：

得到的就是 $d$ 个可分离项的和，所以优化宏观平均F-measure相当于优化每个标签的F-measure。
对于微观平均F-measure，情况更为复杂，第k个子问题是：

显然，（13）依赖于除了 $f_{k}$ 以外的决策函数，在不同的函数下，（13）给出了不同的最优解 $f_{k}$ 。因此标签的顺序会影响Procedure 1 的结果。此外，我们可以多次运行Procedure 1来提高函数的值，我们称之为“循环优化”，如Procedure 2所示。
在这里插入图片描述
如果两个连续迭代的函数值相似，我们停止Procedure 2。对于本文中的实验，我们使用

对于函数形式可分离的宏观平均F-measure，Procedure 2在第一次迭代后不改变测度。因此，不需要考虑循环优化。对于微观平均F-measure和精确匹配比，测度函数是不可分离的，因此可以使用Procedure 2。我们将研究宏观平均F-测度的“可分离形式”是否使其优化更容易。

打着灯笼摸黑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读笔记（8-1）---A Study on Threshold Selection for Multi-label Classification

多标签分类在文本分类、多媒体检索以及很多其他领域都很有用，常用的多标签方法是二进制法，它为每个标签都构造了一个决策函数。在某些应用中，调整二值化方法的决策函数的阈值可以显著提高算法的性能，但这方面的研究还很少。本研究对阈值的选取进行了详细的研究。
复制链接

扫一扫

专栏目录