参与实验室相关项目的时候精读的一篇论文:Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens
背景
基于对比学习的视觉语言预训练方法,如CLIP:在这个框架中,模型被训练成以两种流的方法对齐文本和图像信息,其中图像和文本表示通过两个独立的编码器提取。信息的损失用于训练编码器,使匹配的图像-文本对的表示距离更近,而不匹配的图像-文本对的表示距离更远。然而,使用这种表示法直接对齐跨模态信息因为视觉补丁和文本标记在语义级别和粒度上有所不同而存在问题,例如,一只狗的形象也描绘了各种较低级的属性,如其品种、皮毛颜色、体型和形状,而文本描述,如“一只微笑的狗”,通常是 更抽象和紧凑。为了缓解这个问题,我们提出了一种基于有限离散令牌(FDT)的多模态表示方法。FDT是一组表示某些可视化语义概念的可学习标记。图像和文本都使用共享的FDT嵌入,首先将多模态输入接地到FDT空间,然后聚合激活的FDT表示。匹配的视觉和语义概念通过稀疏激活约束强制由同一组离散标记表示。因此,这两种模式之间的粒度差距被减小了。
模型简介
文中提出的模型如下图所示:
对于图像,其嵌入补丁首先由图像编码器提取。FDT 与图像之间的对应关系由注意力权重进行最大池化计算得出。最后,基于 FDT 的图像表征将计算为 FDT 的注意力加权和。基于 FDT 的输入文本可以用同样的方法构建。对编码器和 FDT 进行训练时,会使用 InfoNCE 损失来拉近匹配图像-文本对的基于 FDT 的表示,同时推远不匹配的对。利用跨模态的共享 FDT 的目的是强制要求 匹配的视觉和语义概念以相同的离散标记来表示。例如 狗 和 "狗 "这个词应该激活相同的 FDT 子集。我们通过经验证明,只需在 FDT 和输入之间施加相对稀疏的注意力权重,就能实现这一目标。
模型内容
1 在CLIP中的特征表示
在 CLIP 中,图像和文本特征分别是图像补丁或语言标记嵌入的集合。具体来说,图像编码器将图像作为输入,然后根据自注意或卷积操作提取补丁或局部区域嵌入。然后,利用注意力池或[CLS]标记,将获得的补丁特征汇总为图像 fv 的最终表示。可表述为:
这里,wpi是第i个补丁的权重,它度量了补丁对最终表示的重要性。<,>是内积函数。Nv为斑块数,fpi表示emb 正在编辑第i个补丁。fg是[CLS]标记嵌入或平均池补丁嵌入,它嵌入了全局图像信息。
同样,对于文本编码器,提取的输入句子的文本表示也可以看作是语言标记嵌入的加权和:
这里,Nti 是语言标记的数量。fti 是第 i 个语言标记的嵌入。wti 是第 i 个语言标记的权重,使用文本 [CLS] 标记通过以下公式 1 计算得出。
上面这些式子可以看出,图像或文本由两种不同的基础来表示:视觉补丁和语言标记。然而,图像补丁和语言标记所传达的信息可能具有不同的语义和粒度。此外,由于不同图像或文本的视觉补丁或语言标记不同,这些基础也是动态的。这可能会增加学习图像和文本特征之间最佳配准的难度。因此,编码器可能无法捕捉到两种模态中共享的重要语义概念,并可能编码不相关的信息。
2 基于FDT的表示
为了解决CLIP中特征表示的局限性,我们提出了基于fdt的表示。我们不再使用不同的基础来表示图像和文本,而是将 FDT 作为图像和文本表示的共同基础。因此,跨模态信息的粒度得到了明确的统一。此外,FDT 还编码了两种模态共享的语义信息。两种模态共享的语义信息,它可以被视为先验知识,指导图像和文本编码器提取特征嵌入。
第一步:转化为FDT:
设 {ci|i = 1, ..., C} 为 FDT,其中C 是共享标记的数量,ci 是第 i 个离散标记(token)。给定一幅输入图像,首先使用图像编码器提取其补丁嵌入。然后使用一个 投影函数投影到 FDT 空间。图像和标记之间的相关性是通过计算投影补丁(patch)嵌入和标记之间的内积并选择最大值得到的,其可表述为:
图像与 FDT 之间的相关性通过 Softmax 函数进行归一化处理,通过 Softmax 函数生成每个标记的最终权重。每个标记的最终权重如下:
是第 i 个标记的图像的权重,而是第 i 个标记的文字的权重,可以用类似的方法计算:
第二步:利用稀疏约束对概念权重进行归一化处理
我们希望 FDT 的归一化权值是稀疏的,因为它能在很大程度上减少噪声。此外,稀疏性对于 FDT 学习跨模态对应至关重要,在跨模态对应中,一个标记对应相同的图像和文本语义。使用Sparsemax 函数来获得稀疏权重,其定义如下:
其中,r 是由图像或文本与 FDT 之间的相关性得分构成的向量(下面两个式子)。
该函数首先计算一个阈值,然后将阈值以下的权重设为零,以保证稀疏性。权重为零。相比之下 常用的 Softmax 函数无法明确地将 FDT 的概率精确为零。
第三步:生成基于FDT的嵌入
给定归一化权重后,可以计算两者的加权和:
上式表明,图像和文本特征由相同的基 FDT 表示,明确地统一了图像和文本信息的粒度。给定基于 FTD 的特征后,对编码器和 FDT 进行训练,使匹配图像-文本对的基于 FDT 的特征之间的相似性大于未匹配图像-文本对的相似性:
其中,N 是匹配的图像-文本对的数量,sim 是余弦相似度函数,τ 是超参数。该等式表明 FDT 基于图像和文本模式进行更新,因此 FDT 经过训练,可以学习两种模式共享的信息。