基于Bert的Vison-Language多模态网络

多模态任务

  • VQA
    用自然语言对给定图片作相关提问.
  • Image-text retrieval
    图像-文本 跨模态检索,任务是根据语言描述,从候选中选定相关的图片, 反之亦然, 即也可以给定图片选文本.数据集如MSCOCO ,Flickr30K.
  • VCR, Visual Commonsense Reasoning
    不太明白, 先搬过来.
    Given an image, the VCR task presents two problems visual question answering (Q→ A) and answer justification (QA→ R) both being posed as multiple choice problems. The holistic setting (Q→AR) requires both the chosen answer and then the chosen rationale to be correct. The Visual Commonsense Reasoning (VCR) dataset consists of 290k multiple choice QA problems derived from 110k movie scenes. Different from the VQA dataset, VCR integrates object tags into the language providing direct grounding supervision and explicitly excludes referring expressions.

模型套路

模态表示

  • 文本. 同Bert一致, 分词后作 emb_lookup.
  • 图片. 用 Faster-RCNN 选定若干个 ROI(Region of Interest), 每个ROI对应一个 anchor box 及 feature vector. 此时就能类比文本的token及position, 往后续网络送了.

模态融合

都是基于BERT开展多模态工作. 关于 视觉,文本 两模态的融合方式上, 有以下两种.

  • 单流
    即共同构成长序列作self-att, 属于 early fusion.
  • 双流
    早期各自独立attention, 之后相互attention . 属于 middle fusion.

预训练任务

  • MLM, Masked Language Model
  • MOC, Masked Object Classification
  • VLM, Visual-Linguistic Matching

Image Bert

见参考[5]

VL-BERT

见参考[6]. ICLR 2020.

Unicoder-VL

单流的代表.
在这里插入图片描述
注意到 Vision 侧, token,position 都是一样的, 凑数用.

finetune task

Image-text retrieval 与 VCR.

LXMERT

双流的代表.
在这里插入图片描述

在这里插入图片描述
其预训练任务多达5个.

在这里插入图片描述

思考讨论

究竟是单流更佳还是双流更佳还不是很明确,虽然主张单流的论文里有作者与双流模型进行比较得出单流更好的结论,但是在双流的论文里同样有与单流的比较而结果是双流更好。关于单双流究竟哪个更好或者是与特定任务相关,看来还需要未来更严谨的对比实验来进一步进行验证。

参考

  1. paper_weely公众号,BERT在多模态领域中的应用
  2. paper, Unicoder-VL,A Universal Encoder for Vision and Language by Cross-modal Pre-training
  3. paper, LXMERT,LXMERT: Learning Cross-Modality Encoder Representations from Transformers
  4. LXMERT 源码链接
  5. paper, Image Bert
  6. paper, VL-BERT
  7. code, VL-BERT
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值