ViLBERT (short for Vision-and-Language BERT)是一个Task-Agnostic(无特定任务的)的多模态图文预训练模型。
论文链接: link.
首先从结构上来说。
他是一个双流的结构。这一点跟LXMERT十分的相似。本文使用faster-rcnn 来提取图片的区域特征,大多数多模态预训练模型都是使用faster-rcnn 来提取图片特征。如uniter,unimo等等。本文认为图片提取完特征是具备高层的语义信息,此时(刚embed完)文本不具备高层语意信息。所以文本是需要先通过几个transformer 模块之后再与图片特征进行交互。其结构上的创新是这个Co-Attentional Transformer Layers.
这个layer结构也十分简单容易理解。self-attention中的q,k,v都是来自自己的输入,只不过只不过输入通过不同的线性网络得到q,k,v。 该结构中只不过是图片k,v去与文本的q做self- attention计算,文本的k,v去与图片的q做self- attention计算。简单说就是图片流中的k,