#今日论文推荐# ACL 2022 | 跨模态离散化表示学习：让不同的模态共享相同的词表

最新推荐文章于 2023-12-26 01:55:04 发布

wwwsxn

最新推荐文章于 2023-12-26 01:55:04 发布

阅读量146

点赞数

分类专栏：深度学习文章标签：大数据

原文链接：https://www.aminer.cn/research_report/62cb90907cb68b460fe81cc9

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# ACL 2022 | 跨模态离散化表示学习：让不同的模态共享相同的词表

作者认为以往的多模态模型仍然使用的是连续向量特征来建模各个模态的数据，而连续向量空间有两个问题：一是它们的 encoder 往往是彼此独立的，使得要比较不同模态 encoder 的激活很困难；二是连续向量是无界的，使得其表征学习的解释性差。
笔者注：我不是很理解此处所谓“不同模态 encoder 的激活”（activations of the encoders from different modalities）是什么意义。有想法的读者可以在评论里说一说。
作者由此引入了离散词表来学习并建模跨模态的数据，并发现离散词表可以促进跨模态检索的效果。

作者会引入一个离散化词表称为 codebook，codebook 记录了每个词的 embedding。
对于一对不同模态的的关联数据，比如视频和它的音频，作者会先用对应模态的 encoder 来将其分别表征为连续向量和。之后，向量和会分别被拆解成两种表征，分别为连续向量和离散词向量，并将两者相加作为其最终的表征。以向量举例：一条路径上它仍会被表征连续表征，本质还是利用一个深层 encoder 来把继续抽取成深度信息，得到向量；另一条路径上它会被投影到离散词表 codebook 的空间上，并用 codebook 中 embedding 与之最接近（以 L2 norm 作为举例）的“词”来代替它，获取对应的词向量。视频最终的表征向量就是。
在训练上，需要做两个训练：其一是训练框架中的 encoder 结构，这里作者使用了对比学习，使用 Masked Margin Softmax loss [3] 来拉进相关的跨模态数据、排斥不相关的跨模态数据；其二是 codebook 词表中词向量的训练，这一块可以参考 VQ-VAE [1] 原文，作者在 VQ-VAE 的基础上增加了 Cross-Modal Code Matching 目标，旨在防止不同模态在词表上发生聚类，使得 codebook 上每个单词实质上只能表征单一模态的信息。作者的 Cross-Modal Code Matching 核心思想是计算单词间的交叉熵来衡量词相似度，设计 loss 来鼓励模型在不同模态的表征上使用相似的单词。单词embedding间的交叉熵作为单词相似度的指标，鼓励使用相似的单词来表征不同模态。作者在附录里的实验说明了Cross-Modal Code Matching显著地提升了codebook跨模态的能力。

论文题目：Cross-Modal Discrete Representation Learning
详细解读：https://www.aminer.cn/research_report/62cb90907cb68b460fe81cc9https://www.aminer.cn/research_report/62cb90907cb68b460fe81cc9
AMiner链接：https://www.aminer.cn/?f=cs