Leveraging Dual Variational Autoencoders and Generative Adversarial Networks for Enhanced Multimodal

computer_vision_chen

已于 2024-04-07 09:41:31 修改

阅读量829

点赞数 12

分类专栏：零样本学习文章标签：人工智能机器学习深度学习

于 2024-03-17 15:33:02 首次发布

本文链接：https://blog.csdn.net/qq_42864343/article/details/136782728

版权

零样本学习专栏收录该内容

20 篇文章 1 订阅

订阅专栏

摘要

在不断发展的分类学领域，尤其是在零样本学习（ZSL）中，准确分类训练数据集中未见实体的挑战仍然是一个重要障碍。尽管现有文献在发展方面丰富，但通常在两个关键领域存在不足：语义一致性（确保分类与真实含义一致）和有效处理数据集多样性偏差。这些差距导致需要一种更强大的方法，能够更有效地应对这两个方面。本文介绍了一种创新的转换器模型与变分自动编码器（VAE）和生成对抗网络（GAN）相结合的方法，旨在在ZSL框架内解决这些问题。选择VAE-GAN的原因是它们的互补优势：VAE擅长提供数据模式的丰富表示，而GAN能够生成多样性而又具有代表性的数据，从而减轻了数据集多样性的偏差。转换器被用来进一步增强语义一致性，这是关键的，因为许多现有模型表现不佳。通过对基准ZSL数据集（如CUB、SUN和Animals with Attributes 2（AWA2））进行实验，我们的方法是新颖的，因为它不仅在提高语义和结构的连贯性方面取得了显著改进，而且有效地解决了数据集偏差。这导致模型在超出训练数据范围的视觉分类任务中的泛化能力显著增强，从 m而填补了当前ZSL研究领域的一个重要空白。

1.介绍

想象一下教导一台计算机识别它从未见过的动物的挑战，这正是零样本学习（ZSL）的本质，这是计算机科学中一个引人入胜的领域，使计算机能够识别它们在训练中从未遇到过的新类别。这与计算机的传统学习方法形成对比，后者通常需要大量的样本。在ZSL中，计算机可以用更少的例子进行学习，依赖于描述或属性等相关信息。在诸如医学影像中识别罕见疾病或自然栖息地中的不常见动物等难以获得大量样本的场景中，这尤其有益。在典型的ZSL方法中，计算机首先接受已知类别的训练，然后利用这些已知类别与新类别之间的相似性来推断后者。这个过程类似于教导一台计算机通过了解马来认识斑马，然后注意它们之间的相似性和差异。在数据有限的情况下，ZSL非常有价值，有助于在例子稀缺的实际场景中应用机器学习。传统的零样本学习和广义零样本学习可以通过它们的训练和测试集之间的区别来区分，如图1所示。

在这里插入图片描述
DVBE（Dynamic Visual-Bert Embedding）框架具有语义标签，这些标签通常在已知和未知类别之间表现出很小的类别方差，导致语义后视觉对齐后的视觉表征差异减小，这使得语义一致性的区分变得复杂。因此，未知类别和已知类别的视觉表示通常会对齐。此外，尽管DVBE网络旨在通过构建互补的视觉表示来减轻已知类别偏差，但它依赖于现有的语义信息，可能会延续数据集中存在的固有偏见。例如，如果基于一个偏见的数据集手动注释类别属性标签，那么偏见可能会对模型学习和应用语义信息产生不利影响。

我们的研究引入了一种称为生成对抗网络（GAN）的人工智能模型的新方法，它在各种图像相关任务中都表现出了良好的效果。我们将GAN与我们独特的架构相结合，以增强计算机处理能力并合成不同类型的信息，这被称为多模态融合，这对确保计算机在面对诸如识别以前未见过的动物等任务时学到的特征是适用的至关重要。通过借鉴先前的研究，我们已经改进了GAN的使用方式，更有效地将观察到的特征与相关信息匹配，从而可能提高了我们的方法在没有明确训练的情况下识别新类别的能力。

此外，与传统的无监督学习方法相比，ZSL的优越性在面对未知类别的挑战时变得更加明显。与无监督方法不同，ZSL可以通过理解文本描述和语义来预测训练数据中不存在的类别实例。这种能力在难以获得大量标记数据的领域中特别有益。最近对ZSL的研究表明，它在准确分类未知类别方面的有效性，从而证实了它相对于传统的无监督学习方法的优势。变压器架构最初是自然语言处理的突破[6,9]，它是我们研究的核心，我们已经创新地将其适应到我们的ZSL框架中。变压器已经精巧地整合到我们的过程的各个阶段，并涵盖了训练、特征合成和最终分类。我们的方法基于一种独特的变分自动编码器生成对抗网络（VAE-GAN）的组合。

这些包括：
利用变压器增强语义一致性：我们已经改进了变压器模型，这种模型通常用于理解和处理语言，并将其整合到我们的变分自动编码器（VAE）中，确保我们的模型在不同形式（如图像和文本）的数据中一致地解释数据的含义（或语义）[6,10]。
保持结构一致性：通过将设计用于处理图像特征的变压器-VAE与专门用于提取文本特征的另一个VAE结合起来，我们确保我们的模型在处理不同类型的数据时保持统一的结构，这对于其在各种数据格式中进行准确预测至关重要[6]。
通过多模态融合和GAN解决数据差异问题：为了识别现实世界应用中训练集和目标数据集之间经常存在的差异，我们将多模态融合（将不同类型的数据结合在一起）和GAN网络结合起来，使我们的模型能够从不同的数据源中获取见解并利用GAN的生成能力；因此，它能够很好地适应不同的数据分布，有效地减少潜在的偏差[9,12]。我们对知名的ZSL数据集（如CUB、SUN和AWA2）进行了实证评估，清楚地展示了整合变压器架构的优势。我们的方法在基准比较中表现出了卓越的性能，显示出了在这些数据集上广义零样本目标识别的显著改进。此外，我们的方法与现有的以GAN为导向的框架兼容性强，增强了其在零样本识别任务中的多功能性和效能[13]。本文主要探讨了零样本学习（ZSL）。第1节介绍了ZSL的研究意义，讨论了当前研究中存在的问题，然后提出了我们论文的贡献；第2节主要探讨了广义零样本学习（GZSL）的发展和当前方法，特别强调了嵌入式方法和生成方法这两种ZSL的分类方式；第3节详细介绍了我们的算法和网络结构；在第4节中进行了实验，并对结果进行了分析；最后，在第5节中全面总结了整篇论文。

2.相关工作

2.1. GZSL的最新发展

在计算机科学领域，特别是在图像识别和人类语言理解方面，零样本学习（ZSL）的概念已经成为研究的关键领域。这种创新性方法使计算机能够识别在其训练阶段没有遇到过的新实体，比如动物、物体或疾病，一个很好的类比是通过比较已知的类似水果来教给某人识别陌生的水果。研究人员正在积极探索这一领域，寻求能够将这种能力赋予计算机的高效而精确的方法。语义信息的使用是零样本学习的关键要素，它充当着连接计算机已知和未知的桥梁。

为了优化对这些信息的利用，研究人员开发了复杂的算法来建立不同类别之间的关系，并利用了包含世界信息的广泛知识库，为计算机的学习过程提供了更广泛的背景。另一个关键技术涉及教会计算机自主识别和学习重要的特征。然而，单纯依赖语义信息是不够的，这就是生成对抗网络（GANs）等技术发挥作用的地方，它通过为计算机创建新的、多样化的数据来增强其鲁棒性，并提高其对陌生项目的分类能力。

零样本学习是一个充满潜力的领域，研究人员只是开始探索其广阔的潜能。然而，零样本学习面临着几个挑战。一个重要问题是计算机必须处理已知和未知类别之间的不平衡，这通常会导致对熟悉类别的偏向；而对不完善的语义信息的使用也可能在识别新实体时产生错误；领域转移也是一个障碍，如果用于训练的数据与用于测试的数据相差很大，就可能导致计算机预测的偏差。

2.2. 零样本学习策略

平衡嵌入和生成技术在零样本学习领域，专家们主要关注嵌入技术和生成技术，这两种策略各有独特的优势，适用于不同的情境。嵌入技术涉及将复杂的数据转化为更简单的格式，以确保计算机更容易解释，并保留必要的信息，类似于创建一张详细的地图，即使在缩小的情况下也清晰可见。这种方法在深度学习的出现后得到了显著增强，通过将已知实体（如常见动物）与推断出的实体（如稀有动物）进行比较，增强了分类能力。

参考文献[22]提供了生成对抗网络及其多样的应用的全面概述，有助于深入理解。参考文献[23]促进了对神经网络中注意力模型的作用和发展的更全面理解，提供了详细的调查，突出了它们在各个领域的影响，以及对改进模型可解释性的贡献。另一方面，生成技术也围绕着为计算机创建新的示例，并通过利用生成对抗网络（GANs）和变分自动编码器（VAEs）等技术来生成逼真的新数据[24–27]。

然而，每种策略都有局限性。例如，嵌入可能会很复杂，可能仍然难以处理变化或复杂的数据。它有时会导致模型偏见，特别是在数据倾斜或文本描述符的情况下。高级嵌入技术，如注意机制[28]和吸收外部知识[29]，正在探索，以减轻这些挑战。相反，生成方法专注于为未知类别生成合成数据[30]。通过使用GANs和类似的模型，这种方法确保生成高保真度和逼真的合成数据，为更全面的训练数据集铺平了道路，并提高了未知类别的性能[31]。我们的研究深入探讨了这些策略，旨在解决每种策略固有的挑战，并最终最大程度地提高零样本学习的有效性。在选择策略时，仔细考虑具体问题和可用工具至关重要。虽然嵌入更直接，但在数据有限的情况下，生成技术提供了更大的灵活性。

3. 材料与方法

3.1. 总体框架

我们的论文从机器学习中的关键概念开始定义，特别强调了图像分类中的广义零样本学习（GZSL）和常规零样本学习（CZSL）。训练集，表示为S，由三元组（x，y，a（y））组成，其中x表示通过卷积神经网络（CNN）提取的图像特征[32]；y是训练阶段遇到的类别的标签（表示为YS）；a（y）是每个类别的语义属性表示，通常是从手动注释的属性或Word2Vec特征中导出的。

在CZSL的背景下，目标集中在学习分类器fCZSL：X→YU上。GZSL包括一个辅助训练集U，由元组（u，a（u））组成，其中u表示在训练期间未观察到的类别（称为YU），a（u）是这些未见类别的语义属性表示。集合A（U）包含了这些未见类别的所有语义属性表示。CZSL和GZSL的基本区别在于它们分类器的目标。

在本文中，我们提供了一种将双分支VAE结构与GAN相结合的架构。如图2所示，这种特殊的构造通过一个共享模块将GAN的生成器与VAE的解码器相连。在VAE-GAN中（它由一个编码器、一个解码器、一个生成器和一个鉴别器组成），解码器和生成器G是公共组件[33]。编码器ExT处理视觉特征x，将其编码为潜变量z1；类似地，编码器Ea以语义属性a作为输入，将其编码为潜变量z2。通过模块D1x/G1和D1a/G1分别获得重构特征x’和a’。使用交叉对齐损失LCA来比较合成特征x’和a’与它们的原始对应物x和a。使用分布对齐（DA）损失来最小化潜在分布之间的Wasserstein距离，以实现潜在分布对齐（LDA）。LDA有助于量化和最小化视觉特征与语义属性之间潜在表示中的差异，确保不同模态之间的表示在一个统一的空间内对齐，从而增强模型在处理多模态数据时的性能和一致性。我们的架构中的鉴别器D接受合成特征x’和a’作为输入，计算一个标量值，表征输入的真实性。我们在D的输出处使用GAN损失函数LGAN，以促进真实特征和人工特征的区分。

在这里插入图片描述

图 2.用于集成视觉和语义特征的变分自编码器和生成对抗网络双架构系统。

3.2. 交叉和分布对齐的VAE

为了使我们的模型能够跨越N个数据模态学习表示，它必须将N个编码器（每个对应于特定的模态）转换为一个公共空间。解码器网络用于重构原始数据，以保持信息的保真度。 $q (z ∣ x)$ 是具有参数的编码器，将 $x$ 映射到潜在空间 $z$ 。 $p_{\theta}(x|z)$ 是参数 $\theta$ ，将潜在空间映射回样本空间。因此，N个不同的VAE损失的累积总和成为我们模型的基本损失函数：
在这里插入图片描述

第一项代表重构误差，第二项表示未解包的Kullback–Leibler（KL）散度。我们的方法涉及通过一个因子β调节KL-散度。我们设置N=2，以匹配视觉特征‘x’和语义属性‘a’。然而，必须添加额外的正则化项，以确保特定模态的自动编码器在其他模态中生成相似的表示。因此，我们的模型应用了交叉重构准则，并明确对齐潜在分布。这两个潜在分布对齐过程，分别是分布对齐（DA）和交叉对齐（CA），如图2所示，该图提供了我们模型的示意概述。交叉对齐（CA）的损失。在这一部分中，来自与两个不同模态（视觉特征和语义属性）对应的同一类别的样本，其潜在表示被解码以提供跨模态重构。因此，来自另一模态的潜在向量被用来训练每个模态特有的解码器。以下显示了交叉重构损失的形式化：

在这里插入图片描述

其中，LCA1表示视觉特征分支的交叉重构损失，比较合成特征x’和原始特征x；LCA2代表语义属性分支的交叉重构损失，比较合成特征a’和原始属性a。分布对齐（DA）损失。LDA用于量化和最小化由视觉特征分支和语义属性分支生成的潜在表示之间的差异。在本文中，我们通过计算和最小化这两种潜在表示之间的Wasserstein距离度量来实现这一目标，具体表达为以下公式：
在这里插入图片描述
其中， $W_{ij}$ 表示分布i和j之间的Wasserstein距离，其定义如下：

在这个上下文中， $\mu_i$ 和 $\mu_j$ 分别表示分布i和j的均值向量， $\Sigma_i$ 和 $\Sigma_j$ 表示它们的协方差矩阵。目标是通过调整模型参数最小化 $L_{DA}$ ，从而以有效的方式对齐不同模态之间的分布。

3.3. ViT 编码器模块

该模块采用了视觉Transformer（ViT）架构，这是基于Transformer模型的系统[32]。它将输入特征分成块，并对每个块使用自注意力[34]和多头机制进行处理。这种设计使得ViT能够检测输入中的长距离依赖关系，这对于理解特征关系至关重要。

ViT 中的位置编码添加了有关特征位置的信息，帮助模型识别特征序列和空间关系，这两者对于学习空间和结构化数据都至关重要[32]。当应用于我们的变分自编码器（VAE）变体时，这种方法提高了对图像视觉特征的捕获，从而提高了分类准确性。我们的编码器就像经典的 ViT 一样，由一个前馈网络和一个多头自注意力层构建而成。如图3所示，一个 k 维特征向量是该过程中的第一个输入。该向量被分成 m 个序列，其中 m 乘以 n 等于 k，并且每个序列包含 n 维特征向量。现在，这些 m-n 维向量被视为八个块的嵌入，每个块代表一个不同的输入特征片段。我们引入了位置编码来保留片段的顺序。每个 n 维的片段与具有相同维度的位置编码相结合。这个编码是可学习和训练中细化的，确保每个片段的维度保持为 n。接下来的步骤涉及层归一化（LN）和通过多头注意力进行处理。在这个机制中，输入被转换为三种形式：查询（q）、键（k）和值（v）。经过自注意力处理后，输出经过另一轮层归一化处理，保持其维度。最后一步涉及应用多层感知器（MLP），它最初扩展了特征维度，然后将其收缩回原始大小。这一步对于增强模型的表达能力至关重要。
在这里插入图片描述

3.4. 用 GAN 推进零样本学习

如图2所示，VAE 中的解码器充当生成器 G，与判别器 D 一起形成 GAN 网络。表示隐藏空间中特征向量的向量表示的 z 向量是在训练阶段通过随机重构由编码器编码的均值向量（µ）和方差向量（Σ）而创建的。GAN 网络中的判别器损失、生成器损失和总 GAN 损失由下面给出的符号和相应的计算方法表示。
在这里插入图片描述

在图4中，以视觉特征分支为例，x表示原始视觉特征；G1(z1)表示通过潜变量 z 由生成器建立的视觉特征 ‘x’；而 D1(G1(z1)) 是一个介于 0 和 1 之间的概率值，表示判别器对生成器生成的数据 G1(z1) 的真实性评估。如果 D1(G1(z1)) 接近于 1，则意味着判别器被欺骗以相信生成的数据与真实数据无法区分；相反，如果接近于 0，则表示判别器能够准确地识别数据为伪造生成。语义属性分支的 GAN 损失与上述描述相同。因此，GAN 网络的总损失由以下公式表示。
在这里插入图片描述
其中，LGAN1 是根据公式（7）至（9）计算的。LGAN2 的计算方法与 LGAN1 相同。如图2所示，GAN1 是视觉特征分支的 GAN，而 GAN2 是语义属性分支的 GAN。

在训练过程中，每当生成器 G 被训练时，鉴别器 D 也会被训练；在对抗过程中，鉴别器 D 不断提高其区分能力，生成器 G 则不断提高其生成能力，直到两者达到动态平衡；最终，预期鉴别器 D 能够生成质量非常接近 x 的生成数据，并通过隐藏向量 z 传递。总的来说，网络的总损失公式如下所示：

在这里插入图片描述

4.Experiments

4.1 Experimental Setting

4.1.1. Datasets

我们在三个知名的零样本学习基准数据集上进行了大量测试，其中既包括粗粒度的（例如 CUB 和 SUN），也包括细粒度的（例如 AWA2）类别。CUB 数据集包含了 11,788 张不同鸟类的照片，由 312 个特征进行标识，分为 200 类（150 个已见和 50 个未见）。SUN 集合包含了共计 14,340 张照片（每张图像由 102 个特征定义），涵盖了 717 个不同的场景类别（645 个可见类别对应 72 个不可见类别）。而 AWA2 数据集中的每个动物组（40 个已见和 10 个未见）都有 37,322 张照片，由 85 个标准进行分类。

4.1.2.Assessment Methodology(评估方法)

我们的实证分析遵循[38]中规范化的评估标准。在传统零样本学习（CZSL）框架中，我们通过对于训练过程中未观察到的类别的 top-1 准确度指标（表示为 Acc）来衡量模型的效能。我们还确定了广义零样本学习（GZSL）范式中被识别（S）和未被识别（U）类别的 top-1 准确度，以及这些准确度的调和平均数，数学表达式为 H=(2×S×U)/(S+U)。

4.1.3. 实现细节

所有的视觉特征都来自于 ResNet101 的 2048 维顶层池化单元。为了在不进行微调的情况下检索特征图，我们使用 1000 类输入对 ResNet101 在 ImageNet 上进行预训练。我们模型中的每个编码器和解码器都是一个单隐藏层的多层感知器。由于 CNN 特征和特征都已经很先进了，因此增加更多的层会导致性能下降。我们为解码器使用了 1660 个隐藏单元，图片特征编码器使用了 1560 个隐藏单元，属性编码器中有 1450 个隐藏单元，解码器中有 660 个隐藏单元。ImageNet 的潜在嵌入大小为 128（在前述大小的编码器中有两个隐藏层），而其他网络的大小为 64。图片特征解码器层中有 1160 个和 1660 个单元，属性解码器中有 460 个和 660 个单元。我们使用 Adam 优化器和随机梯度下降算法进行训练，训练持续 100 个 epochs。对于 ImageNet，批大小为 128，而其他数据集为 50。每个批次中都包含来自同一类的 CNN 特征-属性对，并且数据对始终属于同一类。我们在初始 epochs 之后包括交叉和分布对齐损失，其中变分自编码器（VAEs）学习对特定类型的输入进行编码。参数 δ 在第 6 到第 22 个 epochs 之间每个 epoch 增加 0.54，而γ在第 21 到第 75 个 epochs 之间每个 epoch 增加 0.044。我们对 KL 散度采用退火方法，KL 散度的权重 β 在前 90 个 epochs 内每个 epoch 增加 0.0026。

4.2. 与最先进方法的比较

本节将我们的双变分自编码器和生成对抗网络（DVAGAN）在三个基准数据集（CUB、SUN 和 AWA2）的 CZSL 和 GZSL 设置下进行比较。

在这里插入图片描述

表1显示了实验结果。表1显示了CUB、SUN 和 AWA2 的最先进的 GZSL 和 CZSL 模式的结果（%），包括通过非生成和生成方法获得的结果。U、S 和 H 代表已见、未见和谐均值，它们的准确度描述了 GZSL。ZSL 性能结果以平均 top-1 分类准确率（Acc）显示。*表示经过修改的结果。最佳结果用红色字体标出，第二优结果用蓝色字体显示。

传统的零样本学习与生成模型的比较：在 CUB 数据集中，“我们”的准确率达到了 64.6%，超过了所有生成模型，包括表现最佳的生成模型 HSVA，后者的准确率为 62.8%。在 AWA2 数据集中，“我们”也表现出色，准确率达到了 71.8%，明显优于所有其他模型。此外，实验结果表明，当模型应用于微调的数据集时，其表现良好。例如，在经过微调的 SUN 数据集中，准确率从 60.0% 增加到了 63.3%，而在经过微调的 AWA2 数据集中，准确率从 71.8% 提高到了 77.1%。在 CZSL 实验中，当模型应用于 AWA2 这样的粗粒度数据集时，表现最佳；当应用于细粒度的 CUB 数据集时，表现效果下降；在需要复杂场景理解的 SUN 数据集中，表现中等。这些结果表明，该模型具有区分具有显著差异的类别的稳健能力，但在应用于具有微妙视觉差异的类别时可能需要进一步完善。此外，这些结果暗示了模型的属性学习机制可以适应不同复杂度的数据集，并证明了其注意机制在捕获分类关键细节方面的有效性。因此，这些发现可能指向了在提高细粒度视觉任务模型性能时可以探索的潜在途径。

广义零样本学习。我们将我们的模型与十个前沿模型进行评估，然后将它们分为生成模型和非生成模型两类。其中，f-CLSWGAN、LisGAN、GCM-CF、FREE、HSVA、Proposed KNN 和 Dual VAEGAN 等专注于生成合成视觉数据以增强零样本学习数据集，并旨在增强对未见类别的泛化能力。而 DeVise、Cada-vae、DVBE、GEM-ZSL 和 DGCNet 等则着重于使用线性或非线性函数、图嵌入或卷积方法进行特征嵌入和对齐，而不生成合成数据。生成模型通过创建人工数据来帮助改进学习，而非生成模型则依赖于复杂的特征对齐和嵌入技术。参考上述实验结果，DVAGAN 模型及其变种 DVAGAN* 在 CUB、SUN 和 AWA2 数据集上与十个基准模型相比表现出显著的性能。在 CUB 数据集中，DVAGAN* 在识别未见类别（U 度量）方面表现优异，达到了 54.1%，超过了大多数对照模型，但略低于 GEM-ZSL 模型（64.8%）。在 SUN 数据集中，DVAGAN* 表现出显著的泛化能力，在 U 度量上领先于所有其他模型，达到了 51.2%。虽然在 S 度量上不是最佳的，但在 H 度量上的稳健表现尤为突出，强调了其在平衡已见和未见类别性能方面的相对优势。在 AWA2 数据集的结果中，DVAGAN* 在 U 度量上位于前列，达到了 70.5%，S 度量最高达到了 83.5%，突显了其全面性。至关重要的是，其在 H 度量上的得分为 76.4%，超过了所有其他模型，证实了其在泛化和特定类别识别之间的优化平衡。CUB 数据集的相对表现不佳可以归因于 DVAGAN* 在处理微妙差异时遇到的挑战，这表明需要对细粒度识别任务进行增强专业化。然而，AWA2 数据集的表现证实了 DVAGAN* 在粗粒度泛化任务中具有卓越能力，这些能力适用于新的、广泛的类别。SUN 数据集同时涵盖了粗粒度和细粒度，包含了一系列分类需求。DVAGAN* 在 SUN 数据集的表现，特别是在 U 度量上，显示出其在跨越不同粒度的泛化能力。相比之下，采用组合变分自动编码器和生成对抗网络的 Proposed KNN 方法，我们的方法实现了特征和语义信息的更明确分离和重建。类似地，虽然 Dual VAEGAN 方法通过引入双变分自动编码器生成网络与我们的概念相吻合，但我们的网络更加强调了在不同空间（图像和语义）中特征重建，并且结合了新的损失函数来优化重建误差和对抗性差异。参考不使用双编码器结构的 f-VAEGAN-D2 方法，我们的实验结果显示了性能上的实质性差距，充分证明了我们网络架构的合理性和优越性。DVAGAN 使用双分支 VAE 与 GAN 网络，其从未见类别生成样本的能力使其与 CADA-VAE 区分开来，并提高了识别准确率和泛化能力。这种方法在三个数据集上表现出了卓越的性能。

此外，我们的模型中的注意力机制促进了多模态融合，提高了在具有复杂类别的数据集中的结果。虽然它在细粒度任务上表现良好，并且在粗粒度数据集中表现出色（特别是在捕获显著类别差异方面），但它对类似类别的区分仍有改进空间，正如其在复杂的 SUN 数据集中排名第二所示。结果表明，我们的算法始终优于基线算法，展示了出色的可扩展性和计算实用性。从理论上讲，我们的方法通过调整超参数并集成额外的计算模块，可以适应更大规模的数据集。未来的计划可能包括在更大的数据集上进行实验，并优化策略以提高计算效率，这有助于确保该方法在实际应用中的持续可行性。

总的来说，在与表格 1 中的 ZSL 方法进行比较时，每种方法都展现出独特的优势，包括使用生成模型增强数据表示；将学习映射简化为特征对齐；以及嵌入空间学习以平衡视觉和语义信息的对齐。然而，这些方法可能存在一些限制，包括模式崩溃、过度依赖已见类别以及对未见类别的不足泛化能力（特别是当数据集之间存在显著差异时）。相比之下，我们的方法将双变分自动编码器与生成对抗网络相结合，旨在通过对图像视觉特征和类别语义信息分别使用编码器和解码器，并结合对抗性损失来进一步优化模型对未见类别的泛化能力。这种架构有效地利用了复杂的语义信息，并在培养多样性和创造性方面超越了传统的 ZSL 方法。

4.3. 超参数分析

（1）增加潜在维度。
我们对我们提出的策略针对潜在空间维度的变化进行了彻底评估。尽管我们认识到更高维度的潜在空间提供了更多的自由度，但我们也注意到它们同时需要更多的数据量。相反，较低维度的空间更有效地包含了关键的判别特征。为了概括我们的发现，我们在 CUB 数据集中展示了 DVAGAN 模型在不同潜在维度（16、32、64、96、128 和 160）下的谐波平均精度。如图 5 所示，我们观察到随着维度的增加，准确率出现了初始增加，在潜在维度为 64 时达到了 54.8% 的峰值准确率；在此之后，随着维度进一步增加，性能出现明显下降。这些发现使我们推断出，在潜在空间维度约为 64 时可以实现最佳平衡（以捕获两种模态最具判别性的属性）。

在这里插入图片描述
（2）解缠超参数的敏感性分析

在我们的研究中，优化目标由三个主要的超参数控制：交叉对齐损失的系数（λ1）、分布对齐损失的系数（λ2）和鉴别器损失的系数（λ3）。为了阐明每个解缠组件对模型性能的影响，我们对这些超参数进行了敏感性分析。在这个情境下，λ1、λ2 和 λ3 的值被设置为 {0.001、0.01、0.1、0.5、1、2、4}。在图 6 中显示了不同参数对 CZSL 准确率的影响。在图 6 中，线图清楚地展示了 λ1、λ2 和 λ3 的值对实验结果的重大影响。观察这些超参数从 0.001 变化到 4，我们注意到当参数设置为 1 时，SUN、CUB 和 AWA2 数据集的最高准确率被实现，这表明超参数权重对模型的准确性有着显著影响。综合三个图表的见解后，可以明显看出，对于所有数据集来说，将λ1、λ2 和 λ3 设置为 1 的权重设置对准确性有积极的影响，这表明模型对这些超参数非常敏感。因此，对于这些数据集来说，1 的权重设置似乎是最优的超参数设置。考虑到这些发现，后续实验可以设计，进一步探索围绕这个超参数值的微小波动的具体影响，以确定在多样的数据集中实现最佳模型性能的最有利的超参数配置。
在这里插入图片描述

4.4 消融实验

在我们的消融研究中，我们的目标是孤立出双分支 VAE 模型中的关键组件对零样本学习的影响。我们移除分布对齐损失（LDA），以评估双 VAE 的对齐效果；省略交叉对齐损失（LCA），以评估多模态融合模块；并排除 GAN 损失（LGAN），以确定 GAN 网络对泛化的贡献。这些有针对性的修改将澄清每个组件在模型合成和分类未见数据中所扮演的角色。实验结果如表2所示。
在这里插入图片描述

在消融研究中，结果表明每个组件——分布对齐（LDA）、交叉对齐（LCA）和 GAN 损失（LGAN）——对 DVAGAN 的性能至关重要：LDA 对于未见类别准确率（U）至关重要，因为其移除会降低所有数据集中的 U 和谐平均（H）得分。LCA 对于多模态整合至关重要，因为其消除会导致更低的 H 得分，突显了其在合成和对齐多模态信息中的作用。LGAN 有助于模型的泛化能力，这在所观察到的类别准确率（S）和 H 得分中尤为明显。完整的 DVAGAN 模型在所有指标上都表现出优越的性能，证明了其在零样本学习环境中平衡未见和已见类别识别的架构。因此，将 VAE 与 GAN 框架集成在 DVAGAN 中的做法被验证为一种连贯且有效的方法，可以增强模型在复杂多模态学习场景中的泛化能力和准确性。

5. 结论

在全面探索零样本学习（ZSL）范式的过程中，本文不仅突出了先进的变换器架构和生成对抗网络（GAN）原理的整合，还强调了多模态融合在增强 ZSL 中的关键作用。我们的研究成果的实际意义远远超出了学术兴趣，为实际应用开辟了有前途的途径。例如，我们模型对未见实体的改进分类能力使其在医学诊断等领域具有极高的适用性，可以帮助识别新型疾病模式；类似地，在自动野生动物监测中应用时，它可以促进对初期训练数据中不存在的稀有物种的识别。展望未来，未来的研究应重点解决性能提升与计算实用性之间的权衡。努力应该集中在优化模型的架构，以减少其计算需求，并保持甚至增强其分类准确性和泛化能力。持续探索 ZSL 领域无疑会导致更精细、更高效的模型，进一步推动该领域的发展，并拓宽这些技术的实际适用性。一个应立即追求的方向是改进我们的方法以应用于实时应用程序，其中计算效率至关重要。另一个潜在的方向是将我们的模型适应跨学科使用，例如，在语言学中，它可以应用于语言处理；在金融领域，可以应用于预测性分析。最后，在考虑到人工智能的伦理影响时，未来的工作还应确保我们的模型在各种应用中的使用完全符合伦理标准，包括减少偏见和促进公平。

computer_vision_chen

关注

12
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
Leveraging Dual Variational Autoencoders and Generative Adversarial Networks for Enhanced Multimodal

想象一下教导一台计算机识别它从未见过的动物的挑战，这正是零样本学习（ZSL）的本质，这是计算机科学中一个引人入胜的领域，使计算机能够识别它们在训练中从未遇到过的新类别。这与计算机的传统学习方法形成对比，后者通常需要大量的样本。在ZSL中，计算机可以用更少的例子进行学习，依赖于描述或属性等相关信息。在诸如医学影像中识别罕见疾病或自然栖息地中的不常见动物等难以获得大量样本的场景中，这尤其有益。在典型的ZSL方法中，计算机首先接受已知类别的训练，然后利用这些已知类别与新类别之间的相似性来推断后者。
复制链接

扫一扫