视觉语言融合
文章平均质量分 91
weixin_42653320
主要做视觉问答方向
展开
-
2022: Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts
大多现有的视觉语言预训练依赖通过对象检测器提取的以对象为中心的特征,并对提取的体征与文本进行细粒度对齐。这些方法对学习多个对象间的关系具有挑战性。为此,我们提出一种新的方法--X-VLM来执行多粒度视觉语言预训练。学习多粒度对齐的关键是在给定相关文本的图像中定位视觉概念,同时将文本与视觉概念对齐,其中对齐是多粒度的。实验结果表示X-VLM有效利用了学习到的多粒度对齐到许多下游的视觉语言任务,并始终由于最先进的方法。 现有的学习视觉语言对齐的方法可以分为两种,如图1,大多数检测图像中的对象,并将原创 2022-07-10 22:36:43 · 1378 阅读 · 0 评论 -
2022:OFA: Unifying Architectures, Tasks, and Modalities through A Simple S2s Learning Framework
本工作中,我们追求一个多模态预训练的统一范式,以打破复杂任务/特定模态定制的结构。我们提出OFA,一个支持任务全面性的任务不可知和模态不可知的框架,OFA在一个简单的序列到序列的学习框架中,统一了一组不同的跨模态和单模态任务,包括图像生成、视觉接地、图像字幕、图像分类、语言建模等。OFA在预训练和微调阶段都遵循基于指令的学习,对下游任务不需要额外的任务特定层。与最近依赖于超大的跨模态数据集的最先进的视觉和语言模型相比,OFA仅在2000万公开可用的图像-文本对上进行了预训练。尽管OFA操作简单,训练数据相对原创 2022-07-10 09:03:42 · 999 阅读 · 0 评论 -
2022CoCa: Contrastive Captioners are Image-Text Fountion Models
探索大规模预训练基础模型对计算机视觉具有重要意义,因为这些模型可以迅速地转移到许多下游任务。本文提出对比标注器(CoCa),一种极简的设计,预训练一个图像-文本编码器-解码器模型,并结合对比损失和标注损失,从而包含从对比方法如CLIP和生成方法如SimVLM的模型能力。与所有解码器层都处理编码器输出的标准编码-解码器transformer相比,CoCa在解码器的前半部分忽略交叉注意力来编码单模态文本表示,并将剩余的解码器层交叉处理图像编码器进行多模态图像-文本表示。我们在单模态图像和文本嵌入间应用对比损失,原创 2022-07-03 14:18:37 · 1204 阅读 · 1 评论 -
2020:VL-BERT: Pre-training of generic visual-linguistic representation
我们引入一种新的可预训练的视觉语言任务的通用表示方法---视觉-语言BERT(VL-BERT)。VL-BERT采用Transformer模型作为主干,将视觉和语言特征作为输入。输入的每个元素要么是输入句子中的一个单词,要么是输入图像中的一个感兴趣区域。它的是设计是为了适合大多数视觉-语言的下游任务。为更好的利用通用表示,我们在大规模的Conceptual Captions数据集和仅文本语料库上预训练。广泛的实验表明,预训练能过呢更好地对齐视觉-语言线索,有利于下游任务。 之前的视觉-语言任务是原创 2022-06-19 11:27:34 · 679 阅读 · 0 评论 -
2021: Seeing out of the box: End-to-end pre-training for vision-language representation learning
我们研究了卷积神经网络(CNN)和视觉语言预训练transformer(VLPT)的联合学习,旨在从数百万个图像-文本对中学习跨模态对齐。最先进的方法提取突出的图像区域,并逐步对齐区域与单词。由于基于区域的视觉特征通常代表图像的一部分,因此现有的视觉语言模型要完全理解成对的自然语言的语义是一项挑战。本文,我们提出SOHO,将整个图像作为输入,并以端到端的方式学习视觉语言表示。SOHO不需要边界框注释,使得推理速度比基于区域的方法快10倍。特别地,SOHO学习通过视觉字典(VD)来提取全面而紧凑的图像特征,从原创 2022-06-17 09:08:24 · 288 阅读 · 0 评论 -
2019: Unified Vision-Language Pre-training for Image Captioning and VQA
本文提出一个统一的视觉-语言预训练模型,(1)可以用于视觉-语言生成或理解任务的微调;(2)使用一个共享的多层transformer网络编码和解码,与许多编码器和解码器使用单独的模型不同。统一的VLP模型在大量的图像-文本对上进行预训练,使用两个任务进行无监督学习:双向和序列到序列(seq2seq)掩码视觉-语言预测,这两个任务的不同之处仅仅在于预测条件的背景。这是利用共享transformer网络中的特定自注意力掩码来控制的。 视觉语言任务在传统上需要繁琐的特定于任务的特征设计和微调。最近一原创 2022-06-16 14:40:53 · 767 阅读 · 0 评论 -
2022:Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval
摘要 近些年跨模态图像-配方检索得到了广泛的关注。我们提出一种新的检索框架,T-Food(用于跨模态食物检索的多模态正则化的Transformer解码器),使用一种新的正则化方案利用模态间的交互作用,在测试时只使用单模态编码器用于高效检索。我们还利用专门的配方编码器捕获配方实体间的内部依赖,并提出一种具有动态边缘的三重损失的变体,以适应任务的难度。最后,我们利用最近的VLP模型的力量用于图像编码器,如CLIP。一、介绍 本工作关注配方-图像检索,包括检索给定配方对应的...原创 2022-05-11 15:53:58 · 513 阅读 · 1 评论 -
2022: LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
摘要 指代图像分割目的是从图像中分割出自然语言表达式指代的对象。我们表明,通过视觉transformer编码器网络中间层的语言和视觉特征的早期融合能够实现更好的跨模态对齐。通过在视觉特征提取编码阶段进行跨模态特征融合,我们可以利用transformer编码器中已被证明的相关建模能力提取有用的多模态上下文。通过这种方式可以获得正确的分割结果以及一个轻量级的掩码预测器。一、介绍 图像特征与文本特征的融合策略包括循环交互、跨模态注意力、多模态图推理、语言结构引导的上下文建模...原创 2022-04-25 16:14:35 · 4950 阅读 · 0 评论