AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting
➡️ 论文标题:AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting
➡️ 论文作者:Yu Wang, Xiaogeng Liu, Yu Li, Muhao Chen, Chaowei Xiao
➡️ 研究机构: Peking University、University of Wisconsin–Madison、International Digital Economy Academy、University of California, Davis
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言推理能力方面取得了显著进展,但这些模型也面临着新的安全威胁,特别是结构化越狱攻击(structure-based jailbreak attacks)。这些攻击通过在图像中嵌入恶意内容,误导MLLMs生成有害响应,从而绕过模型的安全机制。
➡️ 研究动机:为了应对结构化越狱攻击,研究团队提出了一种新的防御框架——自适应屏蔽提示(Adaptive Shield Prompting, AdaShield)。该框架通过在模型输入前添加防御提示,无需微调MLLMs或训练额外模块,即可有效防御结构化越狱攻击,同时保持模型在标准良性任务上的性能。
➡️ 方法简介:研究团队首先设计了一个静态防御提示(AdaShield-Static, AdaShield-S),该提示能够有效防御结构化越狱攻击。为进一步提高防御效果,团队引入了一个自适应自动优化框架(AdaShield-Adaptive, AdaShield-A),该框架通过目标MLLM和防御者模型(Defender)的对话交互,自动优化防御提示,生成多样化的防御提示池,以适应不同的攻击场景。
➡️ 实验设计:研究团队在两个标准的结构化越狱攻击数据集(FigStep和QR)上进行了实验,验证了AdaShield-A的有效性。实验结果表明,AdaShield-A不仅能够有效防御结构化越狱攻击,而且不会影响模型在标准良性任务上的性能。
Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation
➡️ 论文标题:Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation
➡️ 论文作者:Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang
➡️ 研究机构: Southern University of Science and Technology, Hong Kong University of Science and Technology, Huawei Noah’s Ark Lab
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现了强大的推理能力。然而,与传统的大型语言模型(LLMs)相比,MLLMs更容易受到越狱攻击。尽管MLLMs能够检测到不安全的响应,但研究发现,引入图像特征可以轻松绕过MLLMs的安全机制。
➡️ 研究动机:现有的研究已经揭示了图像特征可以显著削弱MLLMs的安全机制。为了进一步理解这些威胁,并探索其背后的原因,研究团队全面分析了MLLMs在引入图像特征后的安全评估能力,旨在为未来的安全防护提供有价值的见解和方法。
➡️ 方法简介:研究团队提出了一种名为ECSO(Eyes Closed, Safety On)的新型无训练保护方法,该方法利用MLLMs的内在安全意识,通过将不安全的图像转换为文本,激活预对齐LLMs的内在安全机制,从而生成更安全的响应。ECSO首先利用MLLMs的安全意识评估其自身响应的安全性,一旦检测到不安全的初始响应,ECSO会将图像输入转换为文本,减少MLLMs到(仅文本)LLMs,然后在没有图像的情况下生成安全响应。
➡️ 实验设计:研究团队在五个最先进的MLLMs上进行了实验,包括LLaVA-1.5-7B、ShareGPT4V-7B、mPLUG-OWL2-7B、Qwen-VL-Chat和InternLM-XComposer。实验在MM-SafetyBench和VLSafe数据集上进行,评估了ECSO在不同恶意内容(如非法活动、仇恨言论、恶意软件生成等)下的表现。实验结果表明,ECSO显著提高了模型的安全性,例如在MM-SafetyBench (SD+OCR)上提高了37.6%,在VLSafe上提高了71.3%,同时保持了模型在常见任务上的性能。此外,ECSO还可以作为数据引擎,生成监督微调(SFT)数据,用于MLLMs的对齐,而无需额外的人工干预。
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
➡️ 论文标题:MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
➡️ 论文作者:Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Ankur Jain, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
➡️ 研究机构: Apple
➡️ 问题背景:近年来,多模态大语言模型(MLLMs)在语言建模和图像理解方面取得了显著进展。这些模型通过大规模的图像-文本数据和计算资源,实现了高性能的多模态任务处理。然而,关于这些模型的具体构建过程,尤其是多模态预训练的细节,公开的信息较少。本研究旨在通过详细的实验和分析,提供构建高性能MLLMs的设计原则和教训。
➡️ 研究动机:现有的多模态大语言模型(MLLMs)在透明度上存在不足,大多数模型要么完全封闭,要么开放但缺乏详细的构建过程描述。为了推动该领域的研究,本研究详细记录了MLLMs的构建过程,并通过广泛的实验和分析,总结了构建高性能MLLMs的关键设计原则。
➡️ 方法简介:研究团队通过小规模的实验,对模型架构决策和预训练数据选择进行了广泛的消融实验。实验涉及了图像编码器、视觉-语言连接器和预训练数据的混合比例等多个方面。研究发现,图像分辨率、视觉编码器的损失和容量对模型性能影响最大,而视觉-语言连接器的设计影响相对较小。此外,研究还探讨了不同类型的预训练数据(图像-标题、交错图像-文本和纯文本数据)对模型性能的影响。
➡️ 实验设计:实验在多个公开数据集上进行,包括COCO Captioning、NoCaps、TextCaps、VQAv2、TextVQA、VizWiz、GQA和OK-VQA等。实验设计了不同条件下的零样本和少样本性能评估,以全面评估模型在不同任务上的表现。研究发现,交错图像-文本数据对少样本和纯文本任务性能提升显著,而图像-标题数据对零样本任务性能提升明显。此外,研究还发现,纯文本数据有助于保持模型的语言理解能力。
A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment
➡️ 论文标题:A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment
➡️ 论文作者:Tianhe Wu, Kede Ma, Jie Liang, Yujiu Yang, Lei Zhang
➡️ 研究机构: Tsinghua University、City University of Hong Kong、OPPO Research Institute、The Hong Kong Polytechnic University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉理解和推理方面取得了显著进展,但其作为图像质量评估(Image Quality Assessment, IQA)的强大、灵活、可解释和文本驱动模型的潜力尚未得到充分探索。IQA旨在开发计算模型以预测图像质量,这些模型应能模拟人类视觉系统(HVS)的感知。
➡️ 研究动机:尽管MLLMs在视觉任务中表现出色,但它们在IQA中的应用仍面临挑战,尤其是在细粒度质量区分和多图像质量分析方面。本研究旨在通过系统地评估不同的提示系统,探索MLLMs在IQA中的表现,以期为未来的模型优化提供指导。
➡️ 方法简介:研究团队设计了九种提示系统,结合了心理物理学中的标准化测试程序(单刺激、双刺激和多刺激方法)和自然语言处理中的流行提示策略(标准提示、上下文提示和链式思维提示)。此外,研究团队还提出了一种困难样本选择方法,以进一步挑战MLLMs,该方法考虑了样本的多样性和不确定性。
➡️ 实验设计:实验在全参考(Full-Reference, FR)和无参考(No-Reference, NR)场景下进行,使用了三个开源和一个闭源的MLLMs。实验评估了多个图像质量属性,包括结构和纹理失真、几何变换和颜色差异。实验结果表明,闭源的GPT-4V在人类感知的图像质量评估中表现较为合理,但在细粒度质量区分和多图像质量分析方面仍有不足。
Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean
➡️ 论文标题:Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean
➡️ 论文作者:ChangSu Choi, Yongbin Jeong, Seoyoon Park, InHo Won, HyeonSeok Lim, SangMin Kim, Yejee Kang, Chanhyuk Yoon, Jaewan Park, Yiseul Lee, HyeJin Lee, Younggyun Hahm, Hansaem Kim, KyungTae Lim
➡️ 研究机构: SeoulTech、Yonsei University、Teddysum、KISTI
➡️ 问题背景:大型语言模型(LLMs)通过预训练来预测后续词汇,但其扩展需要大量的计算资源。尽管许多大型科技公司和研究机构已经开发了多语言LLMs(MLLMs)以满足当前需求,但资源较少的语言(LRLs)仍然被忽视。例如,Llama2模型虽然支持28种语言,但用于韩语的数据仅占0.06%。这导致了韩语在词汇表达和语义理解上的显著挑战。
➡️ 研究动机:为了提高LRLs的性能,研究团队提出了三种策略:扩展LRLs的词汇量以增强表达能力;使用双语数据进行预训练以对齐高资源和低资源语言;构建高质量的小规模指令数据集并进行指令调优以增强LRLs的实用性。研究旨在通过这些策略提升韩语在Llama2模型中的表现。
➡️ 方法简介:研究团队首先扩展了Llama2的韩语词汇量,然后使用韩英双语语料库进行预训练,最后基于韩语LIMA数据集进行指令调优。通过这些方法,研究团队构建了Bllossom模型,旨在提高韩语在多种任务中的性能。
➡️ 实验设计:实验使用了Llama2模型,并在八个任务上进行了定量评估,包括自然语言推理(NLI)、语义文本相似度(STS)、主题分类(YNAT)等。此外,还进行了基于人类评价和GPT4的定性评估。实验结果表明,Bllossom模型在定性分析中优于其他韩语单语模型,性能提升从1.8%到8%不等。