多模态大语言模型arxiv论文略读(四十)

请添加图片描述

The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative

➡️ 论文标题:The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative
➡️ 论文作者:Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Yu Kong, Tianlong Chen, Huan Liu
➡️ 研究机构: Arizona State University, Michigan State University, University of North Carolina at Chapel Hill, MIT, Harvard University
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)因其处理和响应各种类型数据的卓越能力,正在不断定义人工智能(AI)的新边界。随着这些高级生成模型越来越多地形成协作网络以完成复杂任务,确保这些系统的完整性和安全性变得至关重要。然而,研究发现,MLLM社会中存在一种新的隐蔽漏洞——恶意内容的间接传播。这种威胁不同于直接生成有害输出,而是通过一个MLLM代理被微妙地影响,生成能够诱导其他MLLM代理输出恶意内容的提示。
➡️ 研究动机:现有的研究主要集中在直接操纵MLLMs以产生有害输出,而本研究揭示了通过一个MLLM代理间接影响其他代理生成恶意内容的可能性。这种间接影响可以导致危险指令或虚假信息在整个MLLM社会中生成和传播。研究团队通过实验展示了这种间接生成的提示的可转移性,强调了其通过代理间通信传播恶意内容的可能性。这项研究揭示了MLLMs带来的新的威胁维度,即一个代理可以作为催化剂,引发广泛的恶意影响。研究强调了开发强大的检测和缓解机制以对抗MLLM社会中的这种隐蔽操纵的紧迫性。
➡️ 方法简介:研究团队提出了一种新的攻击设置,假设攻击者对MLLMs有白盒访问权限,如模型的梯度信息。通过在图像输入中注入可学习的噪声,引导“狼”代理生成恶意提示,进而诱导“羊”代理输出有害内容。研究使用了投影梯度下降(PGD)方法优化噪声,以最小化生成的输出与目标恶意内容之间的差异。此外,研究还探讨了这种攻击的可转移性,即优化后的噪声和恶意提示可以直接用于攻击其他未参与优化的MLLM代理。
➡️ 实验设计:研究在两个开源多模态LLM上进行了实验,分别是LLaVA(用于图像-文本输入)和PandaGPT(用于音频-文本输入)。实验设计了14种禁止场景,包括非法活动、儿童伤害、仇恨/骚扰/暴力、恶意软件、身体伤害、经济损失、欺诈/欺骗、成人内容、政治竞选、隐私侵犯、未经授权的法律实践、定制财务建议、未经授权的医疗建议和高风险政府决策。实验结果表明,“狼”代理能够以接近100%的成功率在图像攻击场景中生成和部署恶意内容。研究还通过案例研究展示了图像和音频提示的注入如何促使“狼”代理生成诱导“羊”代理生成有害内容的输出。此外,研究验证了这些攻击的可转移性,即针对特定“羊”代理训练的恶意输出可以适应并攻击网络中的其他代理。

Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image

➡️ 论文标题:Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image
➡️ 论文作者:Zefeng Wang, Zhen Han, Shuo Chen, Fan Xue, Zifeng Ding, Xun Xiao, Volker Tresp, Philip Torr, Jindong Gu
➡️ 研究机构: Technical University of Munich、LMU Munich、Huawei Technologies、University of Oxford
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在文本和图像理解方面表现出强大的能力,引起了广泛关注。为了提高MLLMs在理解复杂内容图像时的性能,链式思维(Chain-of-Thought, CoT)推理被广泛探索,通过生成中间推理步骤(即理由)来提高模型的解释性和推理能力。然而,最近的研究表明,MLLMs在面对对抗性图像时仍然表现出脆弱性,这引发了关于CoT是否能增强MLLMs对抗性鲁棒性的疑问。
➡️ 研究动机:尽管CoT推理在提高MLLMs的解释性和推理能力方面表现出色,但其在对抗性攻击下的表现尚未得到充分研究。为了回答CoT是否能增强MLLMs的对抗性鲁棒性,以及CoT的中间推理步骤在对抗性攻击下意味着什么,研究团队对MLLMs的两个核心组件(即理由和答案)进行了攻击实验,旨在评估CoT在对抗性攻击下的表现,并探索新的攻击方法。
➡️ 方法简介:研究团队首先将现有的攻击方法(即答案攻击和理由攻击)推广到具有CoT推理的MLLMs上,评估了这些模型在攻击下的表现。基于观察,研究团队进一步提出了一种新的攻击方法——停止推理攻击(Stop-Reasoning Attack),该方法旨在中断模型的推理过程,迫使模型直接输出答案,即使在明确要求使用CoT的情况下也是如此。
➡️ 实验设计:研究团队在三个MLLMs(MiniGPT4、OpenFlamingo、LLaVA)和两个视觉问答数据集(A-OKVQA和ScienceQA)上进行了实验。实验设计了不同的攻击方法(如答案攻击、理由攻击和停止推理攻击),以评估模型在不同攻击下的表现。实验结果表明,CoT在一定程度上提高了MLLMs的对抗性鲁棒性,但停止推理攻击能够显著降低这种鲁棒性,导致模型输出错误答案。

CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora

➡️ 论文标题:CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora
➡️ 论文作者:Zijun Long, Xuri Ge, Richard Mccreadie, Joemon Jose
➡️ 研究机构: University of Glasgow
➡️ 问题背景:文本到图像检索(Text-to-Image Retrieval)旨在根据文本查询找到相关的图像,这一技术在数字图书馆、电子商务和多媒体数据库等多种应用场景中具有重要意义。尽管多模态大型语言模型(MLLMs)在这一任务上表现出色,但它们在处理大规模、多样性和模糊性的现实需求时存在局限性,主要体现在计算成本高和注入式嵌入(injective embeddings)的问题上。
➡️ 研究动机:现有的MLLMs方法在处理大规模、多样性和模糊性的数据时,尤其是在涉及长文本查询和多对象图像的复杂查询时,面临效率和效果的双重挑战。为了克服这些挑战,研究团队提出了一种新的两阶段粗到精索引共享检索(Coarse-to-Fine Index-shared Retrieval, CFIR)框架,旨在提高检索的效率和效果。
➡️ 方法简介:研究团队提出了CFIR框架,该框架包括两个核心阶段:基于实体的排名(Entity-based Ranking, ER)和基于摘要的重新排名(Summary-based Re-ranking, SR)。ER阶段通过将长文本查询转换为多个实体查询,从而缓解模糊性和部分关联问题,并有效过滤掉无关的图像候选。SR阶段则通过生成文档摘要并使用这些摘要来重新排名之前识别的实体基础图像候选,进一步提高检索的精确度。
➡️ 实验设计:研究团队在AToMiC数据集上进行了实验,该数据集包含超过2100万张图像和文本文档,提供了两个不同的评估设置:基础设置和大规模设置。实验结果表明,CFIR框架在Recall@1000指标上比现有的MLLMs方法提高了11.06%,同时在训练和检索时间上分别减少了68.75%和99.79%。此外,研究团队还引入了一种专门的Decoupling-BEiT-3编码器,优化了ER和SR阶段的性能,通过解耦视觉和文本输入的编码,显著提高了计算效率。

PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain

➡️ 论文标题:PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain
➡️ 论文作者:Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Peiyi Wang, Xiangdi Meng, Tianyu Liu, Baobao Chang
➡️ 研究机构: 北京大学国家多媒体信息处理重点实验室、阿里巴巴集团
➡️ 问题背景:多模态大语言模型(MLLMs)在处理需要感知、认知和行动等综合技能的复杂任务中展现出了显著的能力。然而,当前的MLLM基准测试往往单独评估这些能力,忽视了大型语言模型(LLMs)对多模态模型的综合贡献。此外,这些基准测试缺乏错误定位技术,使得难以确定模型在决策错误时是视觉部分还是语言部分出现了问题。
➡️ 研究动机:为了解决现有基准测试在综合评估和错误定位上的不足,研究团队引入了PCA-Bench,这是一个多模态决策基准,旨在评估MLLMs在感知-认知-行动链中的综合能力。PCA-Bench涵盖了自动驾驶、家庭机器人和开放世界游戏三个复杂场景,通过提供任务指令和多样化的上下文,要求模型无缝集成多种能力以做出准确的决策。此外,PCA-Bench还具备错误定位能力,能够细致地审查模型在感知、知识或推理方面的不准确性,从而增强MLLMs部署的可靠性。
➡️ 方法简介:研究团队提出了PCA-Eval,一种基于锚点的自动评估协议,利用强大的语义解析能力的LLMs和数据注释中的锚点信息,自动进行错误定位。此外,为了扩大PCA-Bench的规模,研究团队还提出了Embodied Instruction Evolution (EIE),这是一种自动框架,用于在多模态具身环境中合成指令调优示例。EIE生成了7,510个训练示例,显著提升了开源MLLMs的性能,有时甚至超过了GPT-4 Vision。
➡️ 实验设计:研究团队在PCA-Bench的三个领域(自动驾驶、家庭机器人和开放世界游戏)进行了全面的实验和分析。实验结果表明,GPT4-Vision在感知和基于世界知识的推理方面表现出色,其零样本跨模态推理能力超过了开源MLLMs。EIE生成的训练样本显著提升了开源MLLMs的性能,有时甚至超过了GPT-4 Vision。PCA-Eval在与人类评估结果的高度一致性(平均Kappa系数为0.8+)方面表现良好,能够有效区分模型的正确决策是偶然的还是基于真正的理解。

Multimodal Instruction Tuning with Conditional Mixture of LoRA

➡️ 论文标题:Multimodal Instruction Tuning with Conditional Mixture of LoRA
➡️ 论文作者:Ying Shen, Zhiyang Xu, Qifan Wang, Yu Cheng, Wenpeng Yin, Lifu Huang
➡️ 研究机构: Virginia Tech、Meta AI、The Chinese University of Hong Kong、The Pennsylvania State University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理和整合来自不同模态的信息方面表现出色,尤其是在文本和图像处理上。然而,随着MLLMs的复杂性和规模的增加,参数高效的微调方法(如低秩适应,LoRA)变得至关重要。然而,LoRA在多模态指令调优中面临任务干扰问题,导致性能下降。
➡️ 研究动机:现有的多模态指令调优方法在处理多样化的多模态任务时,由于任务干扰问题,性能会显著下降。为了缓解这一问题,研究团队提出了一种新的方法——条件混合低秩适应(Conditional Mixture-of-LoRA, MixLoRA),旨在通过动态构建低秩适应矩阵来减轻任务干扰,从而提高模型在不同多模态任务中的鲁棒性和适应性。
➡️ 方法简介:研究团队提出了一种系统的方法,通过动态选择低秩分解因子来构建适应矩阵,从而为每个输入实例生成特定的低秩适应矩阵。MixLoRA引入了两个独立因子选择路由器(IFS)和一个条件因子选择路由器(CFS),以确保选择的因子不仅适应输入,而且在A和B矩阵之间保持一致性。
➡️ 实验设计:研究团队在Vision-Flan数据集上进行了多模态指令调优实验,并在MME和其他七个多模态评估数据集上进行了评估。实验设计了不同的任务类型,包括视觉感知、认知能力、光学字符识别、视觉空间推理等,以全面评估MixLoRA在不同任务中的表现。实验结果表明,MixLoRA在相同或更高秩的情况下,始终优于传统的LoRA方法。

<think>嗯,用户想了解Excel中的VLOOKUP函数的用法和参数含义。首先,我需要回忆一下VLOOKUP的基本结构。VLOOKUP是垂直查找函数,用于在表格的首列查找指定的值,然后返回该行中指定列的数据。它的四个参数分别是查找值、表格范围、列索引号和匹配模式。 接下来,我得确认每个参数的具体作用。第一个参数是lookup_value,也就是用户要查找的值,比如产品ID或者姓名。第二个参数是table_array,即查找的范围,这里要注意的是,查找值必须位于这个范围的第一列,否则函数无法正确工作。第三个参数是col_index_num,也就是用户想要返回的数据在表格范围中的第几列,这个列数是从表格范围的第一列开始算起的,不是整个工作表的列。第四个参数是range_lookup,决定是精确匹配还是近似匹配,通常用FALSE或0来指定精确匹配,避免错误。 然后,用户可能需要一个具体的例子来理解如何使用。比如,假设有一个产品价格表,用户想根据产品ID查找对应的价格。这时候,VLOOKUP就可以在ID列查找,然后返回价格列的数据。同时,要提醒用户注意表格范围最好使用绝对引用,比如$A$2:$C$100,这样在拖动公式时范围不会变化。 可能遇到的问题也需要考虑。比如,如果查找值不在表格的第一列,或者列索引号超过了表格的列数,函数会返回错误。此外,数据格式不一致也可能导致问题,比如查找值是数字,而表格中是文本格式的数字,这时候需要统一格式。还有,当出现#N/A错误时,可能是查找值不存在,或者匹配模式设置不正确,需要检查参数是否正确。 用户可能还会问到如何避免常见的错误,比如部分数据匹配出错的情况。这时候需要检查是否有多余的空格,或者数据格式不一致,或者表格范围没有锁定导致拖动时偏移。此外,XLOOKUP作为VLOOKUP的升级版,可能在某些情况下更方便,比如可以向左查找或者返回多列数据,这也是可以提及的内容。 最后,整理步骤,从基础语法到参数说明,再到具体案例,逐步引导用户理解如何使用VLOOKUP函数。同时,提供常见错误和解决方法,帮助用户在实际应用中避免问题。如果有必要,还可以比较VLOOKUP和其他查找函数的区别,比如HLOOKUP或XLOOKUP,但根据用户的问题,主要集中在VLOOKUP本身即可。</think>### Excel VLOOKUP函数详解 #### 一、基础语法与参数说明 VLOOKUP函数的语法为: $$=VLOOKUP(lookup\_value, table\_array, col\_index\_num, [range\_lookup])$$ 包含4个参数: 1. **lookup_value**(必填):要查找的值(如单元格引用或具体值) 2. **table_array**(必填):包含数据的表格范围(必须包含查找列和返回列) 3. **col_index_num**(必填):返回值所在列的序号(从table_array第一列开始计数) 4. **range_lookup**(可选):匹配类型 - `TRUE`/`1`:近似匹配(默认值,需数据升序排列) - `FALSE`/`0`:精确匹配(常用选项) [^1][^2] #### 二、使用步骤演示(工资表查询案例) 假设需要根据员工编号查询工资: 1. 建立查询单元格(如`B12`) 2. 输入公式: ```excel =VLOOKUP(A12, $A$2:$D$100, 4, 0) ``` - `A12`:待查询的员工编号 - `$A$2:$D$100`:锁定数据区域(绝对引用) - `4`:返回第4列(工资列) - `0`:精确匹配 [^2][^3] #### 三、常见错误与解决方法 | 错误现象 | 原因 | 解决方案 | |---------|------|---------| | #N/A | 查找值不存在 | 检查数据源或改用`IFERROR`容错 | | #REF! | 列序号超出范围 | 确认col_index_num ≤ 表格列数 | | 部分匹配失败 | 数据格式不一致 | 统一数值/文本格式 | | 结果错位 | 表格未锁定 | 使用`$`符号固定区域引用 | [^3][^4] #### 四、进阶技巧 1. **多条件查询**: 使用辅助列合并多个条件字段 ```excel =VLOOKUP(A2&B2, $D$2:$F$100, 3, 0) ``` 2. **通配符匹配**: `"*"`匹配任意字符,`"?"`匹配单个字符 ```excel =VLOOKUP("张*", $A$2:$C$100, 3, 0) ``` 3. **跨表查询**: 引用其他工作表数据 ```excel =VLOOKUP(A2, Sheet2!$A$2:$D$100, 4, 0) ``` [^1][^4]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖头鱼爱算法

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值