Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond
➡️ 论文标题:Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond
➡️ 论文作者:Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Peiyi Wang, Tianyu Liu, Baobao Chang
➡️ 研究机构: 北京大学、腾讯云AI
➡️ 问题背景:当前的大型语言模型(LLMs)因其卓越的推理能力和广泛的世界知识而被广泛应用于决策过程。然而,这些模型主要设计用于处理文本信息,导致在处理现实世界中的多模态观察时存在模态差距。多模态大型语言模型(MLLMs),特别是视觉大型语言模型(VLLMs),如GPT4-Vision,展示了强大的视觉理解和推理能力,可以直接感知视觉信息,从而可能实现更复杂的推理和决策。
➡️ 研究动机:研究团队旨在探讨当前最先进的VLLMs是否能够以端到端的方式处理各种具身决策任务,以及与LLM驱动的代理相比,这些模型的优势和局限性。此外,研究还探讨了LLMs和VLLMs是否可以通过协作来增强具身决策能力。
➡️ 方法简介:研究团队提出了一个新的评估基准PCA-EVAL,从感知、认知和行动三个维度评估具身决策能力。PCA-EVAL涵盖了自动驾驶、家庭辅助和游戏三个领域。研究团队还提出了HOLMES框架,允许LLMs利用VLLMs和APIs收集多模态信息,以支持决策过程。
➡️ 实验设计:研究团队在PCA-EVAL基准上评估了多个最先进的VLLMs,包括InstructBLIP、MMICL、QwenVL-Chat和GPT4-Vision。此外,研究团队还评估了HOLMES框架,其中LLMs通过多轮对话调用模型或API来寻找线索,并基于发现的线索进行决策。实验结果表明,GPT4-Vision在端到端决策中显著优于其他模型,平均决策准确率提高了26%。在HOLMES框架中,GPT4在所有三个领域中均表现最佳。与GPT4-HOLMES相比,GPT4-Vision在认知和行动评分上也表现出色。
MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens
➡️ 论文标题:MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens
➡️ 论文作者:Kaizhi Zheng, Xuehai He, Xin Eric Wang
➡️ 研究机构: University of California, Santa Cruz
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在多模态理解方面表现出色,但在同时生成连贯的图像和文本方面仍存在不足。特别是在需要综合处理视觉和语言的任务中,这种局限性尤为明显。为了克服这一挑战,研究团队提出了一种新的交错视觉-语言生成方法,通过引入“生成性视觉词汇”(generative vokens)来促进图像和文本的连贯输出。
➡️ 研究动机:现有的多模态大语言模型在生成连贯的图像和文本方面存在局限,尤其是在需要综合处理视觉和语言的任务中。研究团队旨在通过引入“生成性视觉词汇”来增强模型的多模态生成能力,从而提高图像和文本生成的连贯性和一致性。
➡️ 方法简介:研究团队提出了MiniGPT-5,这是一种新的交错视觉-语言生成方法。该方法通过引入“生成性视觉词汇”来桥接文本和视觉特征空间,采用独特的两阶段训练策略,无需详细的图像描述即可进行多模态生成。此外,研究团队还引入了分类器自由引导(classifier-free guidance)技术,以增强生成图像和文本的一致性和连贯性。
➡️ 实验设计:研究团队在CC3M、VIST和MMDialog三个数据集上进行了实验,评估了MiniGPT-5在单轮和多轮交错视觉-语言生成任务中的表现。实验设计了多种任务,包括仅文本生成、仅图像生成和多模态生成,以全面评估模型的性能。实验结果表明,MiniGPT-5在多个基准测试中显著优于基线模型,特别是在多模态生成任务中表现出色。
Kosmos-G: Generating Images in Context with Multimodal Large Language Models
➡️ 论文标题:Kosmos-G: Generating Images in Context with Multimodal Large Language Models
➡️ 论文作者:Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu Wei
➡️ 研究机构: Microsoft Research、New York University、University of Waterloo
➡️ 问题背景:当前的主体驱动图像生成方法在多样化的应用场景中仍存在局限,如需要测试时调优且无法接受交错的多图像和文本输入。这些限制使得这些方法距离“图像作为外语在图像生成中的应用”这一最终目标仍有较大差距。
➡️ 研究动机:为了克服现有方法的局限,研究团队提出了KOSMOS-G模型,该模型利用多模态大语言模型(MLLMs)的高级多模态感知能力,解决了主体驱动生成中的挑战。KOSMOS-G通过“先对齐后指令”的方式,实现了零样本多实体主体驱动生成能力,且无需修改图像解码器的参数,即可无缝集成到各种框架中。
➡️ 方法简介:KOSMOS-G的训练过程分为三个阶段:1) 多模态语言建模,预训练MLLM以处理多模态数据;2) 图像解码器对齐,通过AlignerNet将MLLM的输出空间与U-Net的输入空间对齐;3) 指令调优,通过组合生成任务对KOSMOS-G进行微调,以生成忠实于输入内容的图像。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括DreamBench和MS-COCO。实验评估了KOSMOS-G在单实体主体驱动生成和文本到图像生成任务中的表现。实验结果表明,KOSMOS-G在零样本设置下表现出色,特别是在多实体主体驱动生成方面,显著优于现有的方法。
UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model
➡️ 论文标题:UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model
➡️ 论文作者:Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Guohai Xu, Chenliang Li, Junfeng Tian, Qi Qian, Ji Zhang, Qin Jin, Liang He, Xin Alex Lin, Fei Huang
➡️ 研究机构: East China Normal University、DAMO Academy, Alibaba Group、Renmin University of China
➡️ 问题背景:在视觉世界中,文本无处不在,传达了关键信息,如在文档、网站和日常照片中。现有的多模态大型语言模型(MLLMs)在视觉和语言理解任务中表现出色,但它们在处理不同类型的图像和广泛的图像尺寸时,仍远未达到通用的视觉情境语言理解能力。例如,从文档中提取信息、从网页中读取文本以及在表格上的视觉问答等任务,现有的模型表现不佳。
➡️ 研究动机:尽管现有的MLLMs在没有领域特定训练的情况下,对低分辨率图像中的显著文本信息具有浅层的零样本视觉文本识别能力,但它们在处理不同类型的图像时表现不佳。为了提高这些模型的通用视觉情境语言理解能力,研究团队提出了UReader,通过低成本的指令调优,利用现有的多模态大型语言模型,实现无OCR的视觉情境语言理解。
➡️ 方法简介:UReader通过利用MLLMs的浅层文本识别能力,仅微调了1.2%的参数,大大降低了训练成本。该模型在广泛的视觉情境语言理解任务上进行了联合微调,采用统一的指令格式。为了增强视觉文本和语义理解能力,研究团队设计了两个辅助任务:文本阅读和关键点生成任务。此外,为了利用MLLMs的低分辨率视觉编码器处理高分辨率图像,研究团队提出了一种形状自适应裁剪模块,将高分辨率图像裁剪成多个局部图像,以避免因调整大小导致的模糊和失真问题。
➡️ 实验设计:UReader在五个领域的10个视觉情境语言理解任务上进行了评估,包括文档、表格、图表、自然图像和网页截图。实验设计了不同的任务,如视觉问答、信息提取、自然语言推理和图像描述,以全面评估模型的性能。实验结果表明,UReader在8个任务上达到了最先进的无OCR性能,且训练成本远低于现有的端到端模型。
Ferret: Refer and Ground Anything Anywhere at Any Granularity
➡️ 论文标题:Ferret: Refer and Ground Anything Anywhere at Any Granularity
➡️ 论文作者:Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang
➡️ 研究机构: Columbia University, Apple AI/ML
➡️ 问题背景:在视觉-语言学习中,如何使模型具备空间理解能力是一个基础的研究问题。两个关键能力由此产生:指代(referring)和定位(grounding)。指代要求模型能够准确理解特定给定区域的语义,而定位则要求模型根据给定的语义描述定位区域。然而,现有的工作大多分别学习指代和定位,而人类可以轻松地从一个任务中学习并将其共享知识推广到另一个任务,同时无缝地将指代/定位能力与日常对话和推理相结合。
➡️ 研究动机:为了弥合这一差距,本研究探讨了三个主要问题:(i) 如何在一个框架中统一指代和定位,它们是否会相互受益?(ii) 如何表示人类通常用于指代的各种类型的区域,如点、框、涂鸦,甚至是自由形式的形状?(iii) 如何使指代和定位具有开放词汇、指令跟随和鲁棒性,这对于实际应用至关重要?
➡️ 方法简介:研究团队提出了Ferret,这是一种新的多模态大型语言模型(MLLM),能够理解图像中任何形状或粒度的空间指代,并准确地定位开放词汇的描述。Ferret通过结合离散坐标和连续视觉特征来表示图像中的区域,形成了一种混合区域表示。此外,研究团队还提出了一个空间感知的视觉采样器,能够处理不同形状的区域,从而支持多样化的区域输入,如点、框和自由形式的形状。
➡️ 实验设计:为了训练Ferret,研究团队构建了GRIT,一个包含110万个样本的全面指代和定位指令调优数据集,涵盖了多个层次的空间知识,包括对象、关系、区域描述和复杂推理。GRIT包括文本输入位置输出(grounding)、位置输入文本输出(referring)的数据,以及混合位置和文本的数据。此外,还进行了空间感知的负样本挖掘,以进一步提高模型的鲁棒性。实验结果表明,Ferret在传统指代和定位任务中表现出色,并在需要指代/定位、语义、知识和推理的任务中显著优于现有模型。