AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception
➡️ 论文标题:AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception
➡️ 论文作者:Yipo Huang, Xiangfei Sheng, Zhichao Yang, Quan Yuan, Zhichao Duan, Pengfei Chen, Leida Li, Weisi Lin, Guangming Shi
➡️ 研究机构: 西安电子科技大学、南洋理工大学
➡️ 问题背景:当前的多模态大语言模型(MLLMs)在处理图像美学感知(IAP)任务时存在显著挑战,尤其是在高度抽象的美学评估、细粒度美学属性评价、美学情感分析和图像美学描述等方面。这些任务对于智能摄影、相册管理、照片推荐和图像增强等实际应用至关重要,因此迫切需要构建一个能够应对这些美学任务的统一基础模型。
➡️ 研究动机:现有的多模态大语言模型在处理图像美学感知任务时表现不佳,主要原因是缺乏人类标注的多模态美学数据。为了克服这一挑战,研究团队构建了一个全面标注的美学多模态指令调优(AesMMIT)数据集,旨在通过指令调优提升MLLMs的美学感知能力。
➡️ 方法简介:研究团队通过三个阶段构建了AesMMIT数据集:1) 通过主观实验收集人类对图像美学的反馈,包括粗粒度美学评价、细粒度推理解释和更细粒度的情感描述;2) 利用GPT-4将人类反馈转化为指令跟随格式,生成丰富的问答对;3) 基于AesMMIT数据集对开源的基础模型进行指令调优,构建多模态美学专家模型(AesExpert)。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括自然图像、艺术图像和AI生成图像。实验设计了多种类型的美学感知任务,如美学质量评估、美学属性评价、美学情感分析等,以全面评估AesExpert模型的美学感知能力。实验结果表明,AesExpert模型在美学感知任务上的表现显著优于现有的最先进模型,如GPT-4V和Gemini-Pro-Vision。
Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales
➡️ 论文标题:Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales
➡️ 论文作者:Minghe Gao, Shuang Chen, Liang Pang, Yuan Yao, Jisheng Dang, Wenqiao Zhang, Juncheng Li, Siliang Tang, Yueting Zhuang, Tat-Seng Chua
➡️ 研究机构: 浙江大学、中国科学院、新加坡国立大学、中山大学
➡️ 问题背景:多模态大语言模型(MLLMs)在处理各种视觉任务时展现了卓越的理解能力。然而,这些模型的推理过程几乎像黑箱一样难以解释,导致它们在处理复杂推理任务时的能力受限,且容易产生幻觉。
➡️ 研究动机:为了增强MLLMs的显式中间推理能力,研究团队提出了一种新的方法——Fact,旨在生成忠实、简洁且可转移的多模态推理,以教授MLLMs。这种方法利用可验证的视觉编程生成可执行代码,确保推理的忠实性;通过一系列操作(如剪枝、合并和桥接)提高推理的简洁性;并通过过滤可转移的推理,确保其在不同模型和任务中的适用性。
➡️ 方法简介:研究团队提出了一种系统的方法,通过生成忠实的代码、简化执行轨迹、验证可转移性以及逐步蒸馏,来生成高质量的多模态推理。具体步骤包括:1) 生成忠实的代码;2) 通过剪枝、合并和桥接操作将执行轨迹转换为自然语言;3) 评估和过滤生成的推理,确保其适用于端到端模型;4) 将精炼的推理逐步蒸馏到MLLMs中。
➡️ 实验设计:研究团队在多个视觉数据集上进行了实验,包括GQA、OKVQA、TallyQA和COCO。实验设计了不同的任务,如计数、空间推理和复杂的视觉问答任务,以全面评估Fact生成的推理在提高模型性能和减少幻觉方面的效果。实验结果表明,Fact生成的推理显著提升了MLLMs在下游任务中的表现,特别是在计数和组合推理任务中。
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models
➡️ 论文标题:Exploring the Transferability of Visual Prompting for Multimodal Large Language Models
➡️ 论文作者:Yichi Zhang, Yinpeng Dong, Siyuan Zhang, Tianzan Min, Hang Su, Jun Zhu
➡️ 研究机构: Tsinghua University, RealAI, Pazhou Laboratory (Huangpu)
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在多种任务中展现了广泛的能力,但它们在特定下游任务上的表现通常不如专门模型,尤其是在零样本评估中。这主要是因为MLLMs主要在大规模数据上进行预训练,并在少量模态对齐和指令数据上进行微调,缺乏对特定任务的专门训练。因此,当用户希望将MLLMs应用于下游任务时,其性能往往不尽如人意,需要开发有效的策略来提高这些模型的实用性。
➡️ 研究动机:现有的适应方法,如全参数微调(FFT),虽然有效,但计算和存储成本高昂。为了减少这些负担,研究团队提出了一种新的方法——可转移视觉提示(TVP),通过在单个模型上训练视觉提示,然后将其应用于其他模型,以提高多个MLLMs在特定任务上的性能。这种方法不仅资源友好,而且灵活,适用于多种应用场景,如“提示即服务”(PaaS)。
➡️ 方法简介:研究团队提出了TVP,通过两个关键策略来增强视觉提示的可转移性:1) 特征一致性对齐(FCA),通过限制提示后特征的变化,保持任务无关的知识;2) 任务语义增强(TSE),通过利用CLIP模型,将任务特定的语义信息嵌入到视觉提示中。这些策略旨在减少特征腐败,提高视觉提示在不同模型间的可转移性。
➡️ 实验设计:研究团队在10个数据集上进行了广泛的实验,涵盖了从对象识别和计数到多模态推理和幻觉校正等多种任务。实验结果表明,通过TVP训练的视觉提示可以显著提高6个现代MLLMs的性能,超越了现有的视觉提示基线方法。此外,TVP还表现出对不同数据集的泛化能力和对图像损坏的抵抗能力,证明了其在实际应用中的有效性。
From Image to Video, what do we need in multimodal LLMs?
➡️ 论文标题:From Image to Video, what do we need in multimodal LLMs?
➡️ 论文作者:Suyuan Huang, Haoxin Zhang, Yan Gao, Yao Hu, Zengchang Qin
➡️ 研究机构: Beihang University、Xiaohongshu
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在理解多模态信息方面展现了深刻的能力,从图像大语言模型(Image LLMs)到更复杂的视频大语言模型(Video LLMs)。尽管视频和图像都属于视觉模态,但视频增加了时间维度,使得其理解更为复杂。当前的Video LLMs往往忽视了Image LLMs的基础工作,倾向于使用更复杂的结构和大量的多模态数据进行预训练,这显著增加了成本。
➡️ 研究动机:为了充分利用Image LLMs在模态对齐方面的基础工作,研究团队提出了一种资源高效的开发管道(RED-VILLM),旨在通过最小的训练数据和参数,快速高效地将Image LLMs转换为Video LLMs。该方法不仅提高了模型的性能,还显著降低了资源消耗。
➡️ 方法简介:研究团队提出了RED-VILLM,这是一种从Image LLMs快速开发Video LLMs的资源高效管道。该方法通过在Image LLMs的基础上添加一个即插即用的时间增强模块,使模型能够理解视频的时间信息和上下文关系。具体来说,视频帧首先通过图像编码器提取特征,然后通过时间和空间池化获得视频的时空特征。这些特征通过Image LLMs的对齐模块和时间模块进行对齐,最终输入到LLM中,使模型能够理解视频。
➡️ 实验设计:实验在多个公开数据集上进行,包括视频文本生成性能基准测试和零样本问答评估。实验设计了不同的指令数据,包括英文和中文的视频-文本指令,以全面评估模型在不同条件下的表现。实验结果表明,RED-VILLM在多个基准测试中均超过了基线模型Video-ChatGPT的性能,特别是在视频理解能力和生成准确答案方面表现出色。
TextSquare: Scaling up Text-Centric Visual Instruction Tuning
➡️ 论文标题:TextSquare: Scaling up Text-Centric Visual Instruction Tuning
➡️ 论文作者:Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang
➡️ 研究机构: ByteDance、华东师范大学、华中科技大学
➡️ 问题背景:文本中心的视觉问答(Text-Centric Visual Question Answering, VQA)领域取得了显著进展,但开源模型在性能上仍远落后于闭源模型,如GPT4V和Gemini。这种差距部分归因于缺乏高质量的指令调优数据。为了弥补这一差距,研究团队提出了一种新的方法,通过闭源多模态大语言模型(MLLMs)生成大规模、高质量的指令调优数据集(Square-10M)。
➡️ 研究动机:现有的研究虽然在生成高质量图像描述和对话方面取得了一定成功,但仍然存在一些挑战,如数据规模较小、图像描述和VQA数据之间的不一致性等。为了进一步提升开源模型的性能,研究团队提出了一种系统的方法,通过闭源MLLMs生成大规模、高质量的文本中心VQA数据集,以提高模型的性能和减少幻觉现象。
➡️ 方法简介:研究团队提出了一种名为Square的方法,通过四个步骤生成高质量的指令调优数据集:自我提问(Self-Questioning)、回答(Answering)、推理(Reasoning)和评估(Evaluation)。具体来说,Square方法首先利用MLLMs的文本-图像分析能力生成与图像文本内容相关的问题,然后通过多种提示技术生成答案,接着要求模型提供详细的推理过程,最后通过自评估和多提示一致性检查来过滤生成的数据,确保数据的质量。
➡️ 实验设计:研究团队基于Square-10M数据集对TextSquare模型进行了广泛的实验。实验包括三个阶段:首先,对模型的所有组件进行全参数微调;其次,增加图像分辨率并仅对视觉编码器进行训练;最后,进行全参数微调。实验结果表明,TextSquare在多个文本中心VQA基准测试中显著超越了现有的开源模型,并在某些基准上甚至超过了闭源的顶级模型,如GPT4V和Gemini Pro。此外,实验还验证了推理数据对提高模型性能和减少幻觉现象的重要性,以及大规模高质量数据集对模型性能的显著提升作用。