Jailbreaking Attack against Multimodal Large Language Model
➡️ 论文标题:Jailbreaking Attack against Multimodal Large Language Model
➡️ 论文作者:Zhenxing Niu, Haodong Ren, Xinbo Gao, Gang Hua, Rong Jin
➡️ 研究机构: Xidian University、Wormpex AI Research、Meta
➡️ 问题背景:多模态大型语言模型(MLLMs)如ChatGPT-4V等,因其在多模态任务中的强大能力而受到广泛关注。然而,这些模型的安全性问题也日益凸显,尤其是通过特定的攻击手段(如“越狱攻击”)可以绕过模型的对齐防护,使其生成有害内容。传统的越狱攻击主要针对纯文本的大型语言模型(LLMs),而针对MLLMs的越狱攻击研究相对较少。
➡️ 研究动机:研究团队旨在探索针对MLLMs的越狱攻击,特别是通过图像越狱提示(imgJP)来绕过模型的对齐防护。此外,研究还探讨了MLLMs越狱攻击与LLMs越狱攻击之间的联系,以及如何利用MLLMs越狱攻击来提高LLMs越狱攻击的效率。
➡️ 方法简介:研究团队提出了一种基于最大似然的方法,通过修改对抗攻击的目标函数,生成能够使MLLMs生成有害内容的imgJP。该方法不仅具有数据通用性(即生成的imgJP可以用于多种未见过的提示和图像),还具有模型迁移性(即生成的imgJP可以用于攻击多种不同的MLLMs)。此外,研究团队还提出了一种基于构造的方法,将MLLMs越狱攻击转化为LLMs越狱攻击,显著提高了LLMs越狱攻击的效率。
➡️ 实验设计:研究团队在自建的多模态数据集AdvBench-M上进行了实验,该数据集包含500个有害行为,每个行为由一条指令和一个目标句子组成。实验评估了imgJP和deltaJP在不同条件下的攻击成功率(ASR),包括不同类型的有害行为和不同模型的响应类型。实验结果表明,所提出的方法在数据通用性和模型迁移性方面表现出色,能够有效越狱多种MLLMs,并显著提高了LLMs越狱攻击的效率。
GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering
➡️ 论文标题:GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering
➡️ 论文作者:Ziyu Ma, Shutao Li, Bin Sun, Jianfei Cai, Zuxiang Long, Fuyan Ma
➡️ 研究机构: 湖南大学、莫纳什大学、中国军事科学院
➡️ 问题背景:基于知识的视觉问答(Knowledge-based Visual Question Answering, VQA)任务需要机器在给定图像的情况下回答开放领域的问题,这通常需要超出图像本身的世界知识。早期的研究依赖于预定义的知识库(KBs)来获取知识,而最近的研究则利用大型语言模型(LLMs)作为隐式知识引擎,通过将图像转换为文本信息(如标题和答案候选)来获取和推理相关知识。然而,这种转换可能会引入无关信息,导致LLM误解图像并忽略对准确回答至关重要的视觉细节。
➡️ 研究动机:现有的方法,如基于检索的方法和基于GPT-3的方法,存在知识获取不准确和引入无关信息的问题。为了克服这些问题,研究团队提出了一种新的框架GeReA,通过提示多模态大型语言模型(MLLMs)来生成与问题相关的提示标题(question-aware prompt captions),并学习一个强大的联合知识-图像-问题表示,以预测最终答案。
➡️ 方法简介:GeReA框架分为两个阶段:1) 问题相关提示标题生成,2) 问题相关提示标题推理。在第一阶段,通过将问题相关的图像区域和问题特定的手动提示输入到冻结的MLLM中,生成问题相关的提示标题。在第二阶段,这些提示标题、图像-问题对和相似样本被输入到多模态推理模型中,以学习一个强大的联合知识-图像-问题表示,从而预测最终答案。
➡️ 实验设计:研究团队在OK-VQA和A-OKVQA数据集上进行了实验,评估了GeReA在不同条件下的表现。实验结果表明,GeReA在OK-VQA数据集上取得了66.5%的测试准确率,在A-OKVQA数据集上取得了63.3%的测试准确率,显著优于现有的最先进方法。
LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model
➡️ 论文标题:LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model
➡️ 论文作者:Dilxat Muhtar, Zhenshi Li, Feng Gu, Xueliang Zhang, Pengfeng Xiao
➡️ 研究机构: 南京大学 (Nanjing University)
➡️ 问题背景:大型语言模型(LLMs)在信息交流和解决复杂问题方面展现了卓越的能力。为了扩展LLMs的感知能力,多模态大型语言模型(MLLMs)通过视觉表示和视觉指令调优,展示了强大的多模态指令跟随能力,可以作为多种任务的通用接口。然而,在遥感(RS)领域,现有的MLLMs未能充分考虑多样化的地理景观和RS图像中的不同对象,导致在RS图像理解方面存在显著挑战。
➡️ 研究动机:为了弥补这一差距,研究团队构建了一个大规模的RS图像-文本数据集(LHRS-Align)和一个信息丰富的RS特定指令数据集(LHRS-Instruct),并提出了一个专门针对RS领域的MLLM——LHRS-Bot。LHRS-Bot通过新颖的多级视觉-语言对齐策略和课程学习方法,旨在提高RS图像理解的性能。
➡️ 方法简介:研究团队通过将RS图像与开放街图(OSM)中的地理特征对齐,生成了LHRS-Align数据集。该数据集包含115万对高质量的RS图像-文本对。此外,通过重新组织多个开源RS数据集并使用GPT-4生成复杂指令数据,构建了LHRS-Instruct数据集。LHRS-Bot利用这些数据集,通过多级视觉特征总结和课程学习策略,实现了对RS图像的深入理解和复杂指令的执行。
➡️ 实验设计:研究团队在多个RS数据集上进行了实验,包括图像分类、视觉问答(VQA)和视觉定位任务。实验设计了不同任务的评估,以全面验证LHRS-Bot的多任务解决能力。此外,还使用LHRS-Bench基准对不同LLMs在RS领域的性能进行了评估。实验结果表明,LHRS-Bot在RS图像理解任务中表现出色,特别是在检测复杂对象、参与人类对话和从视觉信息中提取见解方面。
Unified Hallucination Detection for Multimodal Large Language Models
➡️ 论文标题:Unified Hallucination Detection for Multimodal Large Language Models
➡️ 论文作者:Xiang Chen, Chenxi Wang, Yida Xue, Ningyu Zhang, Xiaoyan Yang, Qiang Li, Yue Shen, Lei Liang, Jinjie Gu, Huajun Chen
➡️ 研究机构: 浙江大学计算机科学与技术学院、浙江大学软件技术学院、浙江大学-蚂蚁集团知识图谱联合实验室、蚂蚁集团
➡️ 问题背景:尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在多模态任务中取得了显著进展,但它们面临着生成内容与输入数据或已知世界知识相矛盾的问题,即“幻觉”(hallucination)。这种幻觉现象阻碍了MLLMs的实际应用,并可能导致错误信息的传播。
➡️ 研究动机:现有的幻觉检测研究主要集中在特定任务上,如图像描述,而忽略了文本到图像生成等任务。此外,这些研究在幻觉类别和评估粒度方面也存在局限性。为了克服这些限制,研究团队提出了一种统一的多模态幻觉检测框架,旨在涵盖更广泛的多模态任务和幻觉类别,提供更细粒度的评估。
➡️ 方法简介:研究团队构建了一个多模态幻觉检测基准(MHaluBench),该基准涵盖了多种幻觉类别和多模态任务,并具备细粒度的分析功能。此外,团队还提出了一种统一的幻觉检测框架(UNIHD),该框架通过提取核心声明、自主选择工具、并行执行工具和幻觉验证等步骤,利用多种辅助工具来检测MLLMs生成内容中的幻觉。
➡️ 实验设计:研究团队在MHaluBench基准上进行了实验,评估了UNIHD框架的有效性。实验设计了多种任务,包括图像到文本生成和文本到图像生成,通过细粒度的声明提取和工具辅助验证,全面评估了模型在不同任务中的幻觉检测能力。实验结果表明,UNIHD框架在检测幻觉方面表现出色,但多模态幻觉检测仍然是一个具有挑战性的任务。
The Instinctive Bias: Spurious Images lead to Illusion in MLLMs
➡️ 论文标题:The Instinctive Bias: Spurious Images lead to Illusion in MLLMs
➡️ 论文作者:Tianyang Han, Qing Lian, Rui Pan, Renjie Pi, Jipeng Zhang, Shizhe Diao, Yong Lin, Tong Zhang
➡️ 研究机构: The Hong Kong University of Science and Technology (HKUST), University of Illinois at Urbana-Champaign (UIUC), The Hong Kong Polytechnic University (PolyU), NVIDIA
➡️ 问题背景:大型语言模型(LLMs)近年来取得了显著进展,尤其是多模态大型语言模型(MLLMs)的出现,赋予了LLMs视觉处理能力,从而在多种多模态任务中表现出色。然而,当这些模型面对某些图像和文本输入时,表现却大打折扣。研究发现,当输入的图像与问题相关但不一致时,MLLMs会受到视觉幻觉的影响,导致错误的输出。
➡️ 研究动机:现有的研究主要集中在简单的视觉问答任务上,而忽略了复杂视觉推理场景中MLLMs的表现。研究团队发现,MLLMs在处理复杂视觉问题时,倾向于忽略问题的语义信息,直接根据图像中的对象进行回答,而不是利用其推理能力。为了量化这一问题,研究团队设计了一个新的基准测试CorrelationQA,以评估MLLMs在面对误导性图像时的视觉幻觉程度。
➡️ 方法简介:研究团队提出了一个系统的方法,通过构建CorrelationQA基准测试,评估MLLMs在面对误导性图像时的表现。CorrelationQA包含7,308个文本-图像对,涵盖13个类别。每个问题-答案对包含多个与答案相关的图像,这些图像可能会误导MLLMs。研究团队首先使用GPT-4生成有意义的问题-答案对,然后利用先进的扩散模型生成相应的误导性图像,包括自然图像和OCR图像。
➡️ 实验设计:研究团队在CorrelationQA基准测试上评估了9个主流的MLLMs,包括LLaVA-13B、LLaVA-7B、CogVLM、InstructBlip、Idefics、mPLUG-Owl2、Qwen-VL、GPT4-V和Mini-GPT4。实验设计了不同的图像类型(如事实图像、误导性图像、随机图像和OCR图像),以及不同的评估指标(如成功回答率和准确率下降),以全面评估MLLMs在不同条件下的表现。实验结果表明,所有测试的MLLMs在面对误导性图像时都表现出不同程度的视觉幻觉,尤其是在OCR图像上表现更为明显。