M2IOSR: Maximal Mutual Information Open Set Recognition

最新推荐文章于 2023-03-13 20:02:14 发布

appron

最新推荐文章于 2023-03-13 20:02:14 发布

阅读量360

点赞数 2

分类专栏：开放集识别文章标签：深度学习机器学习计算机视觉

本文链接：https://blog.csdn.net/pingguolou/article/details/125103564

版权

开放集识别专栏收录该内容

58 篇文章 86 订阅

订阅专栏

M2IOSR: Maximal Mutual Information Open Set Recognition
M2IOSR: 最大相互信息开放集识别

摘要

在这项工作中，我们的目标是解决开放集识别（OSR）这一具有挑战性的任务。
最近的许多OSR方法依靠自动编码器通过重建策略提取特定于类的特征，要求网络在像素级恢复输入图像。这种策略通常对OSR要求过高，因为特定于类的特征通常包含在目标对象中，而不是所有像素中。
为了解决这一缺点，本文摒弃了像素级重建策略，更加注重提高特定类别特征提取的有效性。我们提出了一种基于互信息的方法，该方法具有简化的体系结构，即最大互信息开放集识别（M2IOSR）。所提出的M2IOSR只使用编码器，通过最大化给定输入及其多尺度潜在特征之间的互信息来提取特定于类的特征。同时，为了进一步降低开放空间风险，通过KL散度损失函数将潜在特征约束为类条件高斯分布。通过这种方式，学习了一个强大的函数，以防止网络将不同的观测值映射到类似的潜在特征，并帮助网络提取具有所需统计特征的类特定特征。
所提出的方法显著提高了基线的性能，并在多个基准上一致取得了最新的结果

引言：

基于深度学习的方法在许多识别任务中表现出了显著的成功，其中深度神经网络是用来自K个不同的已知类别的有限标记训练样本集来训练的[15, 44, 21, 11, 10, 12, 13]。在推理过程中，这些在预先定义的K类上训练的网络通常从这些K类中选择一个标签，并将所选标签分配给输入。然而，在大多数现实世界的分类任务中，类的数量通常远远大于K。由于各种客观因素的限制，通常很难建立一个涵盖现实世界中所有类的数据集。因此，在测试过程中，当已知类集之外的样本，即未知样本，被送入网络时，网络会做出错误分类，并错误地将这个样本识别为已知的K类之一。解决这个问题的一个潜在解决方案是开放集识别（OSR）[40]。OSR假定在训练阶段存在知识缺陷，其目的是不仅对已知类别的样本进行分类，而且在测试阶段检测未知样本。为了训练一个有效的OSR分类器，输入分类器的特征应该足够具体，因为在训练时只有已知类别的样本可用。有了特定类别的特征，分类器可以对已知类别进行分类，并在推理过程中识别未知样本[36]。许多最近的OSR方法[36, 45, 47, 35]依靠自动编码器（AE）[17]来提取特定类别的特征。众所周知，AE模型通过像素级的重建策略来提取特定类别的特征，其中重建的图像中的每个像素都有望与输入图像完全相同。由于解码器和复杂的网络结构，它通常是消耗资源的。

此外，如图1所示，类激活图表明，AE模型削弱了目标物体的特征显著性，只有在背景比例较小的情况下才能很好地定位目标物体。这些限制使得这种像素级的重建策略不太适合于OSR任务。由于特定类别的特征通常包含在目标物体中，而不是在背景中，因此没有必要按像素级提取特征。从图1中可以看出，与像素级重建模型相比，非像素级模型在特定类别的特征提取方面更准确，在目标定位方面更稳健（实验细节见5.3节）。

考虑到上述讨论，我们放弃了像素级的重建策略，而更加关注提高特定类别特征提取的有效性。因此，在这项工作中提出了一种新型的OSR方法，即最大互信息开放集识别（M2IOSR）。与之前大多数基于深度学习的OSR方法[53, 31, 47, 35, 45, 36]不同，M2IOSR有一个精简的架构，只用一个编码器通过最大化输入和其潜在特征之间的相互信息（MI）[43]来发现特定类别的特征。相互信息极大地帮助编码器在输入图像和其学习的特征之间建立更强的相互依存关系，以实现OSR。按照[18]中的设置，所提出的方法的每个训练迭代包括两个步骤：

最大化来自同一输入的正向对的MI和最小化来自不同输入的负向对的MI。对于正/负对，建议的方法最大化/最小化完整输入和潜在特征之间的MI（全局MI），以及输入和潜在特征的每个局部区域（斑块）之间的平均MI（局部MI）。

同时，为了进一步降低开放空间的风险[40]，它还鼓励潜在特征具有理想的统计特性。对于统计约束，我们用[45]提出的KL-发散损失函数取代[18]中的对抗性学习。

同时，受[2]的启发，为了防止MI在中间层丢失，我们还在多个尺度上最大化/最小化局部MI。通过这种方式，可以学习一个强大的函数，以避免网络将不同的观察结果映射到类似的潜在特征，并帮助网络提取具有类条件高斯分布的特定特征。

在实验中，我们仔细研究并证明了MI最大化策略、KL-分歧损失函数、多尺度局部MI和正/负对，对提高OSR性能的有效性。本文的贡献如下。

- 我们提出了一种新颖的OSR方法--最大互信Ope Set识别（M2IOSR）。与之前大多数基于深度学习的OSR方法不同，本文提出的方法只使用编码器架构来提取OSR的特定类别特征。
- 为了进一步降低开放空间的风险，我们采用了KLdivergence损失函数来鼓励潜在特征遵循类条件高斯分布。
- 为了防止MI在中间层丢失，我们采用了多尺度的局部MI最大化。
- 在几个基准上的实验表明，所提出的方法大大增强了我们的基线的性能，并取得了新的最先进的OSR性能

相关工作

开放集识别。在[40]中，提出了开放集识别（OSR）的概念，并引入了一种基于SVM的OSR方法（1-vs-Set机），该方法增加了一条额外的超线来分离未知样本和已知样本。WSVM[41]和PI-SVM[22]通过在SVM中引入极值理论来改进这种1-vs-Set机，以进一步控制开放空间风险。SROSR[51]强调从重建误差分布中提取有用信息。一些基于距离的OSR方法也被提出。NNO[7]将那些远离已知类中心点的样本识别为未知。NNDR[24]通过评估两个最相似的类之间的相似度分数，对已知类进行分类并检测出未知样本。

上述方法大多基于传统的机器学习技术（如支持向量机、稀疏表示、最近邻等）。随着深度学习在许多计算机视觉领域取得了突出的成果，近年来，越来越多的研究人员专注于使用深度学习技术来解决OSR任务。一种直接的OSR方法是对Softmax层产生的最有可能的类别的概率设置一个阈值[16]，但未知的样本可能产生同样高的概率[40]。Openmax[8]通过重新分配Softmax函数产生的概率分布来获得未知类的预测概率，从而克服了这个缺点。不同的是，一些工作通过将合成的未知类图像加入训练集[49]来直接估计未知样本的概率，如G-Openmax[53]和OSRCI[31]。此外，[50]中提出的混合模型结合了AE模型、分类器和密度估计器来检测未知数。RPL[9]通过嵌入其他样本的倒数点对已知和未知样本进行分类。自动编码器（AE）也被广泛用于OSR任务中。CROSR[47]结合预测分数和潜在特征，得到未知样本的概率。C2AE[35]通过使用重建误差的极值理论来确定决策边界。CGDL[45]提出了一个新的KL-分歧损失函数，使学习的特征遵循类条件高斯分布。GDFR[36]通过将输入及其重构输入一个自我监督的学习模型来提取最佳特征。

分布外(OOD)检测[42, 19, 46]是与OSR类似的任务，但OOD更侧重于未知检测，其中已知和未知样本通常来自不同领域。OSR需要对已知类别进行分类，另外拒绝未知样本，其中已知和未知样本可能来自同一领域。

互信息估计。无监督学习中的互信（MI）有很长的历史[28, 3, 6, 4]，为神经网络所规定。最近，MI被广泛用于深度神经网络的无监督离散表示学习[20]、场景表示学习[14]、分割和聚类[23]。特别是，MINE[5]学习了基于生成模型的连续变量的MI估计。DIM[18]在这方面追随MINE，但强调了最大化局部MI的重要性，这在其他文献中也有提及[2, 34]。一些研究人员还研究了在深度学习中使用的MI上找到更好的界限[30, 37]。

3.预备工作

在描述我们提出的方法之前，我们在此简要地重温一下相互信息的理论[43]。在信息论中，相互信息（MI）I（A；B）是两个变量A和B之间相互依赖性的度量。更具体地说，它量化了通过观察另一个变量B（或A）所捕获的关于变量A（或B）的 "信息量"。MI可以表示为两个熵项之间的差异。

其中H(A)和H(B)是A和B的边际熵。这个定义有一个直观的解释。I(A; B)是当观察到另一个变量时，一个变量的不确定性的减少。如果A和B相互独立，它们的MI为零，即I(A; B)=0。在这种情况下，知道A不会给B带来任何信息，反之亦然。在另一个极端，如果A和B通过一个确定的函数相互依赖，那么A所传达的所有信息都与B共享。在联合连续随机变量的情况下，MI可以表示为以下公式。

其中p（a；b）是A和B的联合概率密度函数，p（a）和p（b）分别是A和B的边际概率密度函数。

4.方法

在这一节中，首先，我们介绍了所提出的方法--最大互信开放集识别（M2IOSR）中使用的损失函数的衍生。然后，我们展示了我们的MI最大化策略的细节。最后，我们介绍了我们的训练和测试程序。

4.1.损失函数的推导

MI I(X; Z)衡量输入图像X和相应的学习特征Z之间的相互依赖程度。最大化MI I(X; Z)确保学习的特征Z具有高度的语义和代表性来描述输入图像，这是检测未知样本和为已知样本分配正确标签所需要的[36]。正如第3节所介绍的，MI I(X; Z)可以表示为以下公式。

其中，p（x；z）=p（zjx）p（x）是X和Z的联合概率密度函数，p（x）和p（z）分别是X和Z的边缘概率密度函数。

为了进一步降低开放空间的风险[40]，潜伏特征应该被限制在某些统计学属性（例如高斯分布）。与采用对抗性学习的[18]不同，这里我们采用KL-发散函数来获得期望的潜在特征。我们的训练目标是1）最大化输入X和学习特征Z之间的MI I（X；Z）；以及2）最小化后验分布p（z）和先验分布q（z）之间的KL分歧。我们的M2IOSR中使用的损失函数可以用以下方式表示。

其中，γ是平衡参数，LMI和LKL分别表示MI损失和KL-发散损失。MI的一般形式用公式3表示，KL-发散函数的一般形式为

在此，公式4中的训练目标可以表示为以下公式。

其中E[∗]表示变量∗的数学期望。考虑到KL发散函数没有上边界，这里我们用JS发散函数来替代第一项中的KL发散函数[18]。按照公式6和Tab.6，并使用[45]中提出的KL-发散损失函数作为第二项，M2IOSR的完整训练目标从公式7转换为一个更清晰和可实施的表述。

其中σ是一个激活函数，T是一个判别器。第一个项是MI损失LMI，它包含两个部分：对来自同一输入的正数对的MI最大化，对来自不同输入的负数对的MI最小化。当x∼p(zjx)p(x)时，[x；z]是一个正数对，因为潜在特征z是从其相应的输入x中提取的。而当x∼p(z)p(x)时，[x；z]是一个负数对，因为z是从随机输入中提取的。p(zjxk)是潜在特征的第k类条件后验分布，其中k是已知类的索引，q(k)(z)是第k类多变量高斯分布N(z; µk; I)。

4.2.互信息最大化

图2显示了所提方法在正数对上的整体结构。为了与以前的工作进行公平的比较，这里使用的主干是[47]中定义的重新设计的VGG-13网络，潜在特征的维度被固定为32。按照文献[18]的设定，本方法在前几层后最大限度地提高潜伏特征向量与特征图之间的MI（全局MI），最大限度地提高特征向量与特征图的每个局部区域（斑块）之间的平均MI（局部MI），并鼓励表征具有理想的特性。该方法中使用了三层特征，其空间大小分别为16、4和1，即f16(x)、f4(x)和f1(x)。M2IOSR中使用的损失函数由公式4扩展为。

全局MI。最大化整个输入图像和其相应的潜伏特征之间的MI，有助于编码器提取有用的信息来通过网络[18]。为此，我们将输入x编码为深层特征f16(x)，其空间大小为16×16。然后，f16(x)被两个卷积层处理，核大小为3×3。连接后的特征向量被输入到全局判别器Tg，该判别器由两个全连接层组成，以获得全局得分。这里使用的激活函数σ g是一个Softplus函数。全局判别器结构的细节列于表1。对于正数对，f16(x)和f1(x)来自同一图像。负数对是通过将潜在特征f1(x)与来自另一图像的f16(x^)联系起来形成的。

局部MI。最大化输入的局部斑块和潜伏特征之间的平均MI有助于编码器过滤掉噪声特征[18]。对于这个目标，f1(x)与每个位置的特征图f16(x)相连接。我们使用两个1×1卷积层作为局部判别器，对局部MI对[f16(x), f1(x)]（l1t16）进行评分。这里使用的激活函数σd也是一个Softplus函数。本地判别器结构的细节列于表2。

多尺度的局部MI。为了防止MI在中间层丢失，我们又形成了两个正数对[f4(x); f1(x)] (l1t4), [f4(x); f4(x)] (l4t4)。相应地，在训练过程中，我们也利用三个不同的负数对进行局部MI：[f16(x^); f1(x)], [f4(x^); f1(x)], 和[f4(x^); f4(x)]，其中x^和x是不同的图像。公式9中的局部MI损失Llocal由三个项组成。

统计学约束。为了进一步降低开放空间的风险[40]，我们通过使用以下KL-分歧损失函数[45]，迫使来自不同类别的潜在特征近似于不同的多变量高斯分布N(z; µk; I)。

其中，p(zjx; k)是类的条件后验分布，q(k)(z)是第k个多变量高斯模型（更多细节请参考[45]）。采用全连接层将输入标签的一热编码向量映射到潜空间，并得到第k个高斯分布的平均值μk。图2的左下方显示了M2IOSR在CIFAR10数据集[25]上的潜在特征分布的二维tSNE[29]的可视化图。可以看出，潜在特征被聚类为10个多变量高斯分布，每个分布代表一个已知类别。其中，p(zjx; k)是类的条件后验分布，q(k)(z)是第k个多变量高斯模型（更多细节请参考[45]）。采用全连接层将输入标签的一热编码向量映射到潜空间，并得到第k个高斯分布的平均值μk。图2的左下方显示了M2IOSR在CIFAR10数据集[25]上的潜在特征分布的二维tSNE[29]的可视化图。可以看出，潜在特征被聚类为10个多变量高斯分布，每个分布代表一个已知类别。

4.3. 训练和测试

训练。M2IOSR的训练过程有两个阶段：最大最小阶段和分类阶段。在最大最小阶段，根据公式9中定义的损失函数，编码器和鉴别器被联合训练，以最大化正数对的MI，最小化负数对的MI，并约束潜在特征，使其具有所需的统计特性。在分类阶段，编码器被训练成预测分数和真实标签之间的交叉熵损失最小。

测试。一幅给定的图像通过编码器网络，以获得已知类别的概率分数向量V。按照[36]中的设置，如果给定图像的最大预测概率max(V)小于预先确定的阈值τ，则该图像将被识别为未知样本。

5.实验

appron

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
M2IOSR: Maximal Mutual Information Open Set Recognition

M2IOSR: Maximal Mutual Information Open Set RecognitionM2IOSR: 最大相互信息开放集识别摘要引言：基于深度学习的方法在许多识别任务中表现出了显著的成功，其中深度神经网络是用来自K个不同的已知类别的有限标记训练样本集来训练的[15, 44, 21, 11, 10, 12, 13]。在推理过程中，这些在预先定义的K类上训练的网络通常从这些K类中选择一个标签，并将所选标签分配给输入。然而，在大多数现实世界的分类任务中，类的数量通常远远大于K。由于各种客
复制链接

扫一扫