1 概述
ViLBERT是用于多模态任务的多任务模型,例如VQA和推荐表达式。
ViLBERT是vision and language bert,同时处理图像和文本。处理两种不同的输入类型,也就是多模态学习。
论文解读:ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks(2019),这篇论文简单来说:
Multimodality + Transformers
图像和文本模型有:
VideoBERT; VDBERT; VLBERT; ViLBERT; ImageBER; LXMERT; VisualBERT; MBERT; UnicoderVL; UNITER; PixelBERT; FashionBERT……
它们几乎同时提出,有细微的变化,但是基本思想相同。使用Transformer同时处理图像和文本,并且大多数选择的Transformer架构是BERT。这里给出了BERT相关论文的地址感兴趣的同学可以看一下。
2 ViLBERT架构
ViLBERTÿ