【论文阅读】 VL-BERT: Pre-training of generic visual-linguistic representations

利用BERT联合学习视觉和语言之间的信息。
Visual-Linguistic BERT的主干是多模态Transformer attention 模块,以视觉和语言嵌入特征作为输入。在输入中,每个元素要么来自输入句子的单词,要么来自输入图像的某个区域(RoI),以及某些特殊元素[CLS]、[SEP]、[END]等用来消除不同的输入格式的歧义。
在这里插入图片描述
不同于BERT只将语言元素作为输入,VL-BERT将视觉元素和语言元素共同输入。对于每个输入元素,其嵌入特征是四种类型的embedding的总和,即token embedding、visual feature embedding、segment embedding和position embedding。

  • token embedding:遵循BERT的设置,不同之处在于,对于视觉元素,为每一个视觉元素分配一个特殊的[IMG]token。
  • visual features embedding:每一个输入元素都有一个对应的视觉特征嵌入,视觉特征嵌入是视觉外观特征和视觉几何特征的concatenation。通过应用Fast R-CNN检测器来提取视觉外观特征。每个RoI输出层之前的特征向量被用作视觉特征嵌入。对于非视觉元素,相应的视觉外观特征是在整个输入图像上提取的特征,它们是通过在覆盖整个输入图像的RoI上应用Faster R-CNN获得的。视觉几何特征旨在定义每个视觉元素的几何位置。每个RoI的几何特征是一个四维向量,分别用左上角和右下角的坐标分别除以图像的宽度和高度。
  • segment embedding&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值