![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Multi-Modal Pretraing
文章平均质量分 93
看论文
金克丝、
菜
展开
-
<<计算机视觉NeurIPS>>2022:GLIPv2: Unifying Localization and VL Understanding
建立一个通用的,可以同时处理任务(image classification、object detection和segmentation等等)和任务(VQA和image captioning等等)的在过去一两年广为关注,这需要模型能够有效的统一和任务。然而,这两种任务有很大的区别:localization是仅视觉的任务,需要细粒度的输出(例如,bounding boxes或pixel masks),而VL understanding强调不同模态信息之间的融合。原创 2022-09-30 00:34:31 · 964 阅读 · 1 评论 -
<<计算机视觉CVPR>>2022:Grounded Language-Image Pre-training
Visual recognition 模型通常只能预测一组固定的预先确定的目标类别,这限制了在现实世界的可扩展能力,因为对于新的视觉概念类别和新的任务领域需要新的标注数据。CLIP可以在大量图像文本对上有效地学习的视觉表征,因为大规模匹配的图像文本对包含的视觉概念比任何预定义的概念都更广泛,预训练的CLIP模型语义丰富,可以在zero-shot下轻松地迁移到下游的图像分类和文本图像检索任务中。为了获得对图像的细粒度理解。原创 2022-09-28 17:57:50 · 586 阅读 · 0 评论 -
<<多模态预训练—泛读系列(一)>>ViLBERT—(NeurIPS-2019),VL-BERT—(ICLR-2020),VisualBERT—(ACL-2020)
介绍:ViLBERT,一种用于学习图像和自然语言的任务不可知的联合表征的模型,将BERT架构扩展到多模态双流架构,两个独立的分支分别处理视觉和文本输入,co-attention层用以交互图像和文本。在自动收集的大型captions数据集上通过两个预训练任务对模型进行预训练,然后将其迁移到多个视觉和语言下游任务中,视觉问答、视觉常识推理、引用表达式和基于caption的图像检索。......原创 2022-08-01 22:21:22 · 1337 阅读 · 0 评论 -
<<多模态预训练—泛读>>2022:Bridging Video-text Retrieval with Multiple Choice Questions
目录问题与方案一、Introduction二、Related Work三、Method3.1、Dual-encoder for Video-text Pre-training: a revisit3.2、Multiple Choice Questions 3.3、Pre-training Objectives3.4、Model Architecture3.4.1、VideoFormer3.4.2、TextFormer3.4.3、BridgeFormer四、Experiments五、Conclusion原创 2022-07-03 22:43:11 · 738 阅读 · 0 评论 -
<<多模态预训练—泛读>>2022:BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Unders
目录问题与方案:一、Introduction二、Related Work2.1、Vision-language Pre-training2.2、Knowledge Distillation2.3、Data Augmentation三、Method3.1. Model Architecture3.2、Pre-training Objectives3.3、CapFilt四、Experiments and Discussions五、Conclusion 视觉语言预训练(VLP)通过对大规模网络上的图像原创 2022-06-30 01:14:46 · 1270 阅读 · 0 评论 -
<<多模态预训练—泛读>>2022:mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connec
目录问题与方案1、Introduction2、Related Work2.1、Vision-Language Pre-training2.2、Skip-connection3、mPLUG3.1、Model Architecture3.2、Cross-modal Skip-connected Network3.3、Pre-training Tasks四、Experiments五、Conclusion 学习VLP模型的一个巨大挑战是在这两种模态之间找到良好的对齐方式,以缩小两者之间的语义差距。先前原创 2022-06-29 16:29:30 · 1258 阅读 · 0 评论 -
<<多模态预训练>>2022:CoCa: Contrastive Captioners are Image-Text Foundation Models
目录Abstract1、Introduction2、Related Work3、Approach3.1、Natural Language Supervision3.2、Contrastive Captioners Pretraining3.3、Contrastive Captioners for Downstream Tasks4、Experiments5、Conclusion 对于视觉和视觉语言问题,已经探索了一些基础的模型: 在这项工作中,我们统一了single-encoder原创 2022-06-24 00:02:18 · 2782 阅读 · 4 评论 -
<<多模态预训练and视频问答>>2022:LAVENDER: Unifying Video-LanguageUnderstanding as Masked Language Modeling
目录Abstract:一、Introduction二、Related Work三、LAVENDER3.1、Model Architecture3.2、Our Unified Framework4、Experiments5、Conclusion and Discussion of Broader Impact 基于transformer的大规模预训练已成为NLP和VL研究的主流。随着image-text预训练的巨大成功,视频语言(VidL)预训练也受到了越来越多的关注。通过在大量视频文本对上对端原创 2022-06-23 11:38:01 · 518 阅读 · 0 评论 -
<<视觉问答IJCAI>>2022:Declaration-based Prompt Tuning for Visual Question Answering
目录摘要:一、介绍二、Related Work2.1、Pre-trained Vision-language Models2.2、Cross-modal Prompt Tuning三、Methodology3.1、PreliminaryPre-training-then-fine-tuning paradigm3.2 Declaration-based Prompt TuningTextual Adaptation via Declaration Generat...原创 2022-05-18 22:24:06 · 676 阅读 · 0 评论 -
<<视觉问答NeurIPS>>2021:Multimodal Few-Shot Learning with Frozen Language Models
目录摘要:一、介绍二、Related Work三、The Frozen Method3.1、ArchitecturePre-trained Auto-regressive Language ModelsVision EncoderVisual Prefix3.2、Training3.3、Interface at Inference Time3.4、Few-Shot Learning Definitions四、Experiments: A Multi-Mod..原创 2022-05-18 14:44:36 · 1264 阅读 · 2 评论 -
<<视觉问答>>2022:CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment
摘要:CLIP在各种视觉任务中表现出非凡的zero-shot能力,以前CLIP只被认为是一个强大的视觉编码器。然而,在经过大规模图像文本对的预训练后,CLIP本身也应该具备一些视觉语言任务的few-shot能力。我们的实验表明,CLIP可以成为一个强大的视觉语言few-shot学习器,我们首先评估了CLIP在vqa任务中的zero-shot性能,并展示了CLIP在visual entailment任务中的zero-shot跨模态迁移能力。然后,我们提出了一种参数有效的微调策略,以提高...原创 2022-05-15 19:21:54 · 3231 阅读 · 2 评论 -
<<多模态预训练and视觉问答>>2019:LXMERT: Learning Cross-Modality Encoder Representations from Transformers
摘要:视觉语言推理需要理解视觉概念、语言语义,以及最重要的,这两种模式之间的对齐和关系。因此,我们提出LXMERT(利用Transformers学习跨模态编码器表示)框架来学习这些视觉和语言的关系,在LXMERT中,我们构建了一个大规模的Transformer模型,该模型由三个编码器组成:对象关系编码器、语言编码器和跨模态编码器,接下来,为了赋予我们的模型连接视觉和语言语义的能力,我们使用大量的图像和句子对对模型进行预训练,通过五个不同的具有代表性的预训练任务:掩码语言模型、掩蔽对象...原创 2021-12-24 14:24:28 · 829 阅读 · 0 评论