多模态论文
文章平均质量分 94
介绍近期多模态领域的发展,详细介绍一些重要论文
CV温故知新
这个作者很懒,什么都没留下…
展开
-
多模态系列-综述Video Understanding with Large Language Models: A Survey
随着在线视频平台的蓬勃发展和视频内容量的急剧增长,对高效视频理解工具的需求显著增强。鉴于大型语言模型(LLMs)在语言和多模态任务中展现出的强大功能,本综述详细梳理了利用LLMs进行视频理解领域研究的最新进展,特别是在视频理解大型语言模型(Vid-LLMs)方面的突破。Vid-LLMs展现出的新兴能力极为先进,特别是其结合常识知识进行开放性时空推理的能力,预示着未来视频理解的一个极具潜力的发展路径。原创 2024-04-03 14:30:30 · 708 阅读 · 0 评论 -
多模态系列-综述MM-LLMs: Recent Advances in MultiModal Large Language Models
在过去的一年中,多模态大型语言模型(MM-LLMs)取得了实质性的进展,通过高效的训练策略,增强了现成的语言模型,以支持多模态输入或输出。由此产生的模型不仅保留了语言模型的固有推理和决策能力,还赋予了多样化的多模态任务。在本文中,我们提供了一份旨在促进进一步研究多模态大型语言模型的综合调查。首先,我们概述了模型架构和训练流程的一般设计公式。随后,我们介绍了一个包含122个多模态大型语言模型的分类体系,每个模型都具有其特定的公式。原创 2024-03-28 10:14:09 · 1237 阅读 · 0 评论 -
多模态系列论文--VLMO 详细解析
4. 多模态的训练数据集不够多,但是在单模态里,就是视觉或者NLP里,可用的数据很多,基于这个研究动机,VLMo的作者提出了stagewise pre-training strategy,就是分阶段去训练,先把vision expert在视觉数据集这边训好,再把language expert在language的数据集上训好,这个时候模型本身的参数非常好的被初始化了,再到多模态的数据上做pre-training,效果就会好很多。另一个是训练方式的改进,做的分阶段的模型预训练。原创 2023-07-17 12:55:11 · 819 阅读 · 1 评论 -
多模态系列论文--ALBEF 详细解析
最近图像文本的大规模的特征学习非常火爆,大部分已有的方法都是用一个Transformer模型作为多模态的一个编码器,同时编码视觉的Token和文本的Token,视觉Token就是视觉特征,一般是region-based的图像特征。原创 2023-07-15 18:17:11 · 2930 阅读 · 1 评论 -
多模态系列论文--CoCa 详细解析
CoCa代表Contrastive Captioners的缩写,代表模型用两个目标函数训练出来的,一个是Contrastive Loss,一个是Captioning Loss。本文因为数据集更大,模型也更大,所以它的效果很好,在多模态所有的任务均SOTA,而且在单模态里,在ImageNet上也得到了90以上的Top1准确度,在视频动作识别领域,在Paper with Code上CoCa在K400、K600、K700这些数据集上排名前三。原创 2023-07-08 15:19:51 · 1762 阅读 · 0 评论 -
多模态系列论文----最详细的多模态论文总结(BLIP、BEIT、CoCa等)
最详细的多模态论文总结原创 2023-07-08 14:42:01 · 1167 阅读 · 0 评论 -
多模态系列论文--BEiT-3 详细解析
BEITv3其实从方法上来说就是之前BEIT、BEITv2、VLBEIT、VLMO等一系列的工作的一个集合体,本身没有提出新的内容,主要就是把它做大做强,展示了一个Unified Framework能达到的性能。BEiTv3的目标非常明确,就是想做一个更大一统的框架,不论是从模型上统一,而且从训练的目标函数上要统一,还有模型大小,数据集大小,如何scale也要统一,作者称之为Big Convergence。原创 2023-07-08 14:15:07 · 1200 阅读 · 0 评论 -
多模态系列论文--BLIP 详细解析
所以作者用生成的文本充当新的训练数据集,具体的,作者在coco数据集上把已经训练好的image grounded text decoder又微调了一下,得到了captioner,然后给定任意一张从网上爬下的图片,用这个captioner给这个图片生成新的字幕,也就是红色这里的ts,经过filter筛选后,添加到数据集中,它是synthetic data。(Ih,Th)是手工标注的Coco数据集。这样就用统一的一个模型,即训练的时候是一个模型,推理的时候可以根据不同的任务选择这个模型中的某一部分去做推理。原创 2023-07-08 10:57:37 · 1456 阅读 · 0 评论 -
多模态系列论文--CLIP 详细解析
现在最先进的视觉系统都是预先定义好的一些物体类别标签的集合,模型学习预测这些预定义的类别从而完成模型的训练,但有限制性的监督信号也限制了模型本身的泛化性,尤其是需要识别新物体类别的时候,都要去收集新的数据训练新的模型。直接从自然语言文本里去得到一些监督信号是一个非常有前途的办法。本文爬取了一个4个亿的图片文本配对的数据集,选择一种自监督的训练方式,利用文本的监督信号训练一个迁移能力强的视觉模型(zero shot模型),证实了用一个非常简单的预训练的任务,就可以高效且可扩展的学习一些最好的图像的表征。原创 2023-06-28 14:17:10 · 2085 阅读 · 0 评论