Stetman读peper小记：FDT_revisiting multimodal representation in contrastiv-CSDN博客

本文链接：https://blog.csdn.net/Stetman/article/details/131820074

文章提出了FDT（有限离散令牌）方法来改进基于对比学习的视觉语言预训练模型，如CLIP。FDT旨在统一图像和文本的语义粒度，通过稀疏激活强制匹配的视觉和语义概念用相同的离散标记表示，从而缓解模态间表示差异的问题。模型通过InfoNCE损失优化，使匹配的图像-文本对的FDT表示更接近。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参与实验室相关项目的时候精读的一篇论文：Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens

背景

基于对比学习的视觉语言预训练方法，如CLIP：在这个框架中，模型被训练成以两种流的方法对齐文本和图像信息，其中图像和文本表示通过两个独立的编码器提取。信息的损失用于训练编码器，使匹配的图像-文本对的表示距离更近，而不匹配的图像-文本对的表示距离更远。然而，使用这种表示法直接对齐跨模态信息因为视觉补丁和文本标记在语义级别和粒度上有所不同而存在问题，例如，一只狗的形象也描绘了各种较低级的属性，如其品种、皮毛颜色、体型和形状，而文本描述，如“一只微笑的狗”，通常是更抽象和紧凑。为了缓解这个问题，我们提出了一种基于有限离散令牌（FDT）的多模态表示方法。FDT是一组表示某些可视化语义概念的可学习标记。图像和文本都使用共享的FDT嵌入，首先将多模态输入接地到FDT空间，然后聚合激活的FDT表示。匹配的视觉和语义概念通过稀疏激活约束强制由同一组离散标记表示。因此，这两种模式之间的粒度差距被减小了。

模型简介

文中提出的模型如下图所示：

对于图像，其嵌入补丁首先由图像编码器提取。FDT 与图像之间的对应关系由注意力权重进行最大池化计算得出。最后，基于 FDT 的图像表征将计算为 FDT 的注意力加权和。基于 FDT 的输入文本可以用同样的方法构建。对编码器和 FDT 进行训练时，会使用 InfoNCE 损失来拉近匹配图像-文本对的基于 FDT 的表示，同时推远不匹配的对。利用跨模态的共享 FDT 的目的是强制要求匹配的视觉和语义概念以相同的离散标记来表示。例如狗和 "狗 "这个词应该激活相同的 FDT 子集。我们通过经验证明，只需在 FDT 和输入之间施加相对稀疏的注意力权重，就能实现这一目标。

模型内容

1 在CLIP中的特征表示

在 CLIP 中，图像和文本特征分别是图像补丁或语言标记嵌入的集合。具体来说，图像编码器将图像作为输入，然后根据自注意或卷积操作提取补丁或局部区域嵌入。然后，利用注意力池或[CLS]标记，将获得的补丁特征汇总为图像 fv 的最终表示。可表述为：

这里，wpi是第i个补丁的权重，它度量了补丁对最终表示的重要性。<，>是内积函数。Nv为斑块数，fpi表示emb 正在编辑第i个补丁。fg是[CLS]标记嵌入或平均池补丁嵌入，它嵌入了全局图像信息。

同样，对于文本编码器，提取的输入句子的文本表示也可以看作是语言标记嵌入的加权和：

这里，Nti 是语言标记的数量。fti 是第 i 个语言标记的嵌入。wti 是第 i 个语言标记的权重，使用文本 [CLS] 标记通过以下公式 1 计算得出。

上面这些式子可以看出，图像或文本由两种不同的基础来表示：视觉补丁和语言标记。然而，图像补丁和语言标记所传达的信息可能具有不同的语义和粒度。此外，由于不同图像或文本的视觉补丁或语言标记不同，这些基础也是动态的。这可能会增加学习图像和文本特征之间最佳配准的难度。因此，编码器可能无法捕捉到两种模态中共享的重要语义概念，并可能编码不相关的信息。

2 基于FDT的表示

为了解决CLIP中特征表示的局限性，我们提出了基于fdt的表示。我们不再使用不同的基础来表示图像和文本，而是将 FDT 作为图像和文本表示的共同基础。因此，跨模态信息的粒度得到了明确的统一。此外，FDT 还编码了两种模态共享的语义信息。两种模态共享的语义信息，它可以被视为先验知识，指导图像和文本编码器提取特征嵌入。

第一步：转化为FDT：

设 {ci|i = 1, ..., C} 为 FDT，其中C 是共享标记的数量，ci 是第 i 个离散标记（token）。给定一幅输入图像，首先使用图像编码器提取其补丁嵌入。然后使用一个投影函数投影到 FDT 空间。图像和标记之间的相关性是通过计算投影补丁（patch）嵌入和标记之间的内积并选择最大值得到的，其可表述为：