论文解读ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

ViLBERT (short for Vision-and-Language BERT)是一个Task-Agnostic(无特定任务的)的多模态图文预训练模型。
论文链接: link.

首先从结构上来说。
在这里插入图片描述
他是一个双流的结构。这一点跟LXMERT十分的相似。本文使用faster-rcnn 来提取图片的区域特征,大多数多模态预训练模型都是使用faster-rcnn 来提取图片特征。如uniter,unimo等等。本文认为图片提取完特征是具备高层的语义信息,此时(刚embed完)文本不具备高层语意信息。所以文本是需要先通过几个transformer 模块之后再与图片特征进行交互。其结构上的创新是这个Co-Attentional Transformer Layers.

在这里插入图片描述
这个layer结构也十分简单容易理解。self-attention中的q,k,v都是来自自己的输入,只不过只不过输入通过不同的线性网络得到q,k,v。 该结构中只不过是图片k,v去与文本的q做self- attention计算,文本的k,v去与图片的q做self- attention计算。简单说就是图片流中的k,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值