【arxiv 2024】VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding
一、前言
Authors: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Khan
Mohamed bin Zayed University of AI, UAE
【Paper】 > 【Github_Code】 > 【Project】
整体架构由 (i) 分段采样、(ii) 双视觉编码器、(iii) 将视觉特征投射到语言域的视觉语言适配器和 (iv) 大型语言模型组成。
其他贡献包括VCG+,112K 数据集和VCGBench-Diverse
Abstract
背景问题:
基于语言模型的进步,大型多模态模型 (LMM) 在视频理解方面做出了重大改进。虽然当前的视频 LMM 使用先进的大语言模型 (LLM),但它们依赖图像或视频编码器来处理视觉输入,而每种编码器都有其自身的局限性。图像编码器擅长从帧