#今日论文推荐# ACL 2022 | 跨模态离散化表示学习:让不同的模态共享相同的词表

#今日论文推荐# ACL 2022 | 跨模态离散化表示学习:让不同的模态共享相同的词表

作者认为以往的多模态模型仍然使用的是连续向量特征来建模各个模态的数据,而连续向量空间有两个问题:一是它们的 encoder 往往是彼此独立的,使得要比较不同模态 encoder 的激活很困难;二是连续向量是无界的,使得其表征学习的解释性差。 
笔者注:我不是很理解此处所谓“不同模态 encoder 的激活”(activations of the encoders from different modalities)是什么意义。有想法的读者可以在评论里说一说。
作者由此引入了离散词表来学习并建模跨模态的数据,并发现离散词表可以促进跨模态检索的效果。

作者会引入一个离散化词表称为 codebook,codebook 记录了每个词的 embedding。
对于一对不同模态的的关联数据,比如视频 和它的音频 ,作者会先用对应模态的 encoder 来将其分别表征为连续向量 和 。之后,向量 和 会分别被拆解成两种表征,分别为连续向量和离散词向量,并将两者相加作为其最终的表征。以向量 举例:一条路径上它仍会被表征连续表征,本质还是利用一个深层 encoder 来把 继续抽取成深度信息,得到向量 ;另一条路径上它会被投影到离散词表 codebook 的空间上,并用 codebook 中 embedding 与之最接近(以 L2 norm 作为举例)的“词”来代替它,获取对应的词向量 。视频 最终的表征向量就是 。
在训练上,需要做两个训练:其一是训练框架中的 encoder 结构,这里作者使用了对比学习,使用 Masked Margin Softmax loss [3] 来拉进相关的跨模态数据、排斥不相关的跨模态数据;其二是 codebook 词表中词向量的训练,这一块可以参考 VQ-VAE [1] 原文,作者在 VQ-VAE 的基础上增加了 Cross-Modal Code Matching 目标,旨在防止不同模态在词表上发生聚类,使得 codebook 上每个单词实质上只能表征单一模态的信息。作者的 Cross-Modal Code Matching 核心思想是计算单词间的交叉熵来衡量词相似度,设计 loss 来鼓励模型在不同模态的表征上使用相似的单词。单词embedding间的交叉熵作为单词相似度的指标,鼓励使用相似的单词来表征不同模态。作者在附录里的实验说明了Cross-Modal Code Matching显著地提升了codebook跨模态的能力。

论文题目:Cross-Modal Discrete Representation Learning
详细解读:https://www.aminer.cn/research_report/62cb90907cb68b460fe81cc9icon-default.png?t=M666https://www.aminer.cn/research_report/62cb90907cb68b460fe81cc9
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值