
LLM Security and Privacy
文章平均质量分 64
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models
首次提出Token级后门攻击Token替换:将输出中的特定源token(如"red")替换为目标token(如"green")Token插入:在输出末尾插入恶意token序列(如钓鱼链接)优化框架提出结合有效性损失(最大化攻击成功率)和实用性损失(保持模型性能)的优化目标通过影子数据集训练实现触发模式与攻击行为的绑定防御验证测试了微调(Fine-tuning)和输入净化(Zero-shot Image Purification)等防御方法的局限性发现Token替换攻击对微调具有较强抗性。原创 2025-04-03 09:30:00 · 0 阅读 · 0 评论 -
Towards Label-Only Membership Inference Attack against Pre-trained Large Language Models
成员推理攻击(MIAs)旨在预测某个数据样本是否属于模型的训练集。尽管先前的研究已对大语言模型(LLMs)中的成员推理攻击进行了广泛探索,但这些研究通常需要访问完整的输出logits(即基于logits的攻击),而在实际应用中,完整的输出logits通常是不可获取的。在本文中,我们研究了预训练的大语言模型在标签仅设置下对成员推理攻击的脆弱性,在这种设置下,攻击者只能访问生成的token(文本)。原创 2025-03-24 08:30:00 · 76 阅读 · 0 评论 -
Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks
大语言模型(LLMs)已成为现代自然语言处理的支柱,但它存在泄露敏感训练数据的隐私问题。成员推理攻击(MIAs)旨在推断某个样本是否包含在模型的训练数据集中,可能引发更广泛的隐私威胁。现有的针对传统分类模型的防御方法没有考虑文本数据的序列特性,因此,它们要么需要大量的计算资源,要么无法有效降低大语言模型中的隐私风险。在这项研究中,我们提出了一种轻量级且有效的经验隐私防御方法,通过利用大语言模型中token的特定特征来保护语言模型的训练数据。原创 2025-03-07 09:30:00 · 99 阅读 · 0 评论 -
GuardReasoner: Towards Reasoning-based LLM Safeguards
随着LLM对安全关键应用的影响越来越大,使用护栏确保其安全仍然是一个关键挑战。本文通过引导保护模型学习推理,提出了一种新的LLM保护机制GuardReasoner。具体来说,我们首先创建GuardReasonerTrain数据集,该数据集由127K个样本和460K个详细的推理步骤组成。然后,我们引入推理SFT来解锁保护模型的推理能力。此外,我们还提出了硬样本DPO,以进一步加强他们的推理能力。通过这种方式,GuardReasoner实现了更好的性能、可解释性和通用性。原创 2025-02-25 10:00:00 · 26 阅读 · 0 评论 -
Large Language Model Safety: A Holistic Survey
大型语言模型(LLM)的快速开发和部署为人工智能带来了新的前沿,其标志是在自然语言理解和生成方面具有前所未有的能力。然而,这些模型越来越多地集成到关键应用程序中,引发了大量的安全问题,需要彻底检查其潜在风险和相关的缓解策略。这项调查全面概述了LLM安全的现状,涵盖了四大类:价值错位、对抗性攻击的鲁棒性、滥用和自主AI风险。原创 2025-01-24 09:00:00 · 178 阅读 · 0 评论 -
Chinese SafetyQA: A Safety Short-form Factuality Benchmark for Large Language Models
随着大型语言模型(LLMs)的快速发展,出现了重大的安全问题。从根本上说,大型语言模型的安全性与它们对安全知识的理解的准确性、全面性和清晰度密切相关,特别是在法律、政策和伦理等领域。这种真实性能力对于确定这些模型是否可以在特定地区安全、合规地部署和应用至关重要。为了应对这些挑战并更好地评估LLM回答简短问题的真实性能力,我们引入了中国安全QA基准。中国安全QA具有几个属性(即中国、多样、高质量、静态、易于评估、安全相关、无害)。原创 2025-01-23 10:00:00 · 126 阅读 · 0 评论 -
Adversarial Attacks on Large Language Models in Medicine
将大型语言模型 (LLM) 集成到医疗保健应用程序中,为医疗诊断、治疗建议和患者护理提供了有希望的进步。然而,LLM 对对抗性攻击的敏感性构成了重大威胁,在微妙的医疗环境中可能导致有害结果。本研究调查了 LLM 在三项医疗任务中对两种对抗性攻击的脆弱性。利用真实世界的患者数据,我们证明了开源和专有 LLM 都容易受到跨多个任务的操纵。这项研究进一步揭示了,与一般域任务相比,特定域任务在模型微调中需要更多的对抗数据才能有效执行攻击,尤其是对于功能更强大的模型。原创 2024-10-21 14:40:30 · 153 阅读 · 0 评论 -
Assessing Adversarial Robustness of Large Language Models: An Empirical Study
大型语言模型 (LLM) 彻底改变了自然语言处理,但它们对对抗性攻击的稳健性仍然是一个关键问题。我们提出了一种新颖的白盒式攻击方法,该方法暴露了领先的开源 LLM(包括 Llama、OPT 和 T5)中的漏洞。我们评估了模型大小、结构和微调策略对它们对对抗性扰动的抵抗力的影响。我们对五种不同的文本分类任务进行了全面评估,为 LLM 稳健性建立了新的基准。本研究的结果对 LLM 在实际应用中的可靠部署具有深远的影响,并有助于推动值得信赖的 AI 系统的发展。原创 2024-10-13 12:01:17 · 156 阅读 · 0 评论 -
A Survey of Backdoor Attacks and Defenses on Large Language Models
大型语言模型 (LLM) 弥合了人类语言理解和复杂问题解决之间的差距,在多项 NLP 任务上实现了最先进的性能,特别是在少样本和零样本设置中。尽管 LMM 的功效显而易见,但由于计算资源的限制,用户必须使用开源语言模型或将整个训练过程外包给第三方平台。然而,研究表明,语言模型容易受到潜在安全漏洞的影响,特别是在后门攻击中。后门攻击旨在通过毒害训练样本或模型权重,将目标漏洞引入到语言模型中,从而使攻击者能够通过恶意触发器操纵模型响应。原创 2024-10-01 10:00:00 · 211 阅读 · 0 评论 -
Mitigating Exaggerated Safety in Large Language Models
随着大型语言模型 (LLM) 的普及,将模型安全性与实用性相结合变得越来越重要。面临的挑战是确保LLM能够识别并拒绝危险的提示,而不牺牲他们提供帮助的能力。“夸大安全”的问题表明这有多么困难。为了减少过度的安全行为(发现有 26.1% 的安全提示被错误分类为危险并被拒绝),我们结合使用 XSTest 数据集提示以及交互式、上下文和少量提示来检查 LLM 的决策范围例如 Llama2、Gemma、Command R+ 和 Phi-3。原创 2024-09-27 12:00:00 · 59 阅读 · 0 评论 -
Jailbreak Attacks and Defenses Against Large Language Models: A Survey
大型语言模型(LLM)在各种文本生成任务中表现出色,包括问答、翻译、代码补全等。然而,LLM 的过度协助带来了“越狱”的挑战,这导致模型生成通过设计对抗性提示来恶意应对使用政策和社会。随着利用LLM不同漏洞的越狱攻击方法的出现,相应的安全调整措施也在不断发展。在本文中,我们提出了全面而详细的越狱攻击和防御方法的分类。例如,根据目标模型的透明性,将攻击方法分为黑盒攻击和白盒攻击。同时,我们将防御方法分为提示级防御和模型级防御。原创 2024-09-27 11:00:00 · 136 阅读 · 0 评论 -
A Causal Explainable Guardrails for Large Language Models
大型语言模型 (LLM) 在自然语言任务中表现出令人印象深刻的性能,但它们的输出可能会表现出不良属性或偏差。将 LLM 引导至所需属性的现有方法通常假定无偏见的表示,并且仅依赖于转向提示。然而,从预训练中学到的表示可能会引入影响转向过程的语义偏差,从而导致次优结果。我们提出了 LLMGuardrail,这是一个新颖的框架,它结合了因果分析和对抗性学习,以在 LLM 中获得无偏的转向表示。LLMGuardrail 系统地识别并阻止了偏见的混杂效应,从而能够提取无偏的转向表示。原创 2024-09-07 11:11:02 · 265 阅读 · 0 评论 -
Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge
越狱攻击可以使大型语言模型 (LLM) 绕过保护措施并生成有害内容。现有的越狱防御方法未能解决模型中存在有害知识的基本问题,从而导致 LLM 面临潜在的越狱风险。在本文中,我们提出了一种名为 Eraser 的新型防御方法,主要包括三个目标:忘掉有害知识、保留常识和保持安全对齐。直觉是,如果 LLM 忘记了回答有害问题所需的特定知识,它将不再有能力回答有害问题。Erase 的训练实际上并不需要模型自身的有害知识,它可以从忘记与有害查询相关的一般答案中受益,这意味着它不需要红队的帮助。原创 2024-09-05 09:54:51 · 114 阅读 · 0 评论 -
Poisoning Web-Scale Training Datasets is Practical
深度学习模型通常在从互联网抓取的分布式网络规模数据集上进行训练。在本文中,我们介绍了两种新的数据集中毒攻击,它们故意将恶意示例引入模型的性能。我们的攻击立即变得切实可行,今天可能会毒害10个流行的数据集。我们的第一个攻击是分裂视图中毒,它利用互联网内容的可变性来确保数据集注释器对数据集的初始视图与后续客户端下载的视图不同。通过利用特定的无效信任假设,我们展示了如何以60美元的价格毒害0.01%的LAION-400M或COYO-700M数据集。原创 2024-08-24 21:00:51 · 364 阅读 · 0 评论 -
JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models
大型语言模型(LLM)的激增突显了人们对其安全漏洞的担忧,特别是对越狱攻击的担忧,在越狱攻击中,对手设计越狱提示来规避潜在滥用的安全机制。解决这些问题需要对越狱提示进行全面分析,以评估LLM的防御能力并找出潜在的弱点。然而,评估越狱性能和理解提示特征的复杂性使得这种分析很费力。我们与领域专家合作,描述问题特征,并提出一个LLM辅助框架,以简化分析过程。它提供自动越狱评估,以方便性能评估,并支持对提示中的组件和关键字进行分析。原创 2024-08-18 12:19:26 · 234 阅读 · 0 评论 -
Developing Safe and Responsible Large Language Model
大型语言模型(LLMs)已经推进了各种自然语言处理(NLP)任务,如文本生成和翻译等。然而,这些模型通常会生成可能使偏见永久化的文本。现有的减轻这些偏见的方法通常会损害知识保留。本研究探讨了LLM是否可以在不牺牲知识或理解的情况下产生安全、无偏见的输出。我们介绍了安全和负责任的大型语言模型(SRLLM),该模型在固有安全的微调LLM之上进行了指令微调,以减少生成文本中的偏见。我们开发了一个专门的数据集,其中包含不安全和相应安全变体的示例,以训练SRLLM识别和纠正有偏见的文本。原创 2024-08-15 15:32:09 · 54 阅读 · 0 评论 -
Advancing the Robustness of Large Language Models through Self-Denoised Smoothing
尽管大型语言模型(LLM)取得了重大成功,但它们容易受到对抗性干扰,包括最近的越狱攻击,这引起了人们的极大关注。然而,这些模型的规模越来越大,而且它们的访问权限有限,这使得提高它们的鲁棒性成为一项具有挑战性的任务。在各种防御策略中,随机平滑显示了LLM的巨大潜力,因为它不需要完全访问模型的参数或通过对抗训练进行微调。然而,随机平滑涉及在模型预测之前向输入添加噪声,最终模型的鲁棒性在很大程度上取决于模型在这些噪声污染数据上的性能。其有效性往往受到模型在噪声数据上的次优性能的限制。原创 2024-08-14 09:46:28 · 172 阅读 · 0 评论 -
Foundational Challenges in Assuring Alignment and Safety of Large Language Models
这项工作确定了确保大型语言模型(LLM)的一致性和安全性的18个基本挑战。这些挑战分为三类:对LLM的科学理解、开发和部署方法以及社会技术挑战。基于已识别的挑战,我们提出了200多个具体的研究问题。原创 2024-08-10 10:33:54 · 225 阅读 · 0 评论 -
Goal-guided Generative Prompt Injection Attack on Large Language Models
当前的大型语言模型(LLM)为大规模面向用户的自然语言任务提供了坚实的基础。大量用户可以通过用户界面轻松注入对抗性文本或指令,从而导致LLM模型安全挑战。尽管目前有大量关于提示注入攻击的研究,但这些黑盒攻击大多使用启发式策略。目前尚不清楚这些启发式策略如何与攻击的成功率相关,从而有效地提高模型的鲁棒性。为了解决这个问题,我们重新定义了攻击的目标:最大化干净文本和对抗文本的条件概率之间的KL分歧。此外,我们证明了最大化KL散度等价于最大化嵌入表示x和x′之间的马氏距离。原创 2024-08-06 21:22:07 · 338 阅读 · 0 评论 -
Hidden You Malicious Goal Into Benign Narratives
对语言模型模型(LLM)的越狱攻击需要精心制作提示,旨在利用模型生成恶意内容。现有的越狱攻击可以成功欺骗LLM,但它们不能欺骗人类。本文提出了一种新型的越狱攻击,可以欺骗LLM和人类(即安全分析师)。我们的观点的关键见解是借鉴了社会心理学——如果谎言隐藏在真相中,人类很容易被欺骗。基于这一认识,我们提出了逻辑链注入攻击,将恶意注入良性真相。逻辑链注入攻击首先将其恶意目标伪装成一系列良性叙述,然后将叙述分发到相关的良性文章中,其中包含无可置疑的事实。这样,新生成的提示不仅可以欺骗LLM,还可以欺骗人类。原创 2024-07-20 23:52:53 · 66 阅读 · 0 评论 -
ATTACKS ON THIRD-PARTY APIS OF LARGE LANGUAGE MODELS
大型语言模型(LLM)服务最近开始提供一个插件生态系统来与第三方API服务交互。这项创新增强了LLM的能力,但也带来了风险,因为这些由各种第三方开发的插件不容易被信任。本文提出了一种新的攻击框架,用于检查包含第三方服务的LLM平台中的安全和安全漏洞。将我们的框架专门应用于广泛使用的LLM,我们可以识别跨第三方API的各种域的真实恶意攻击,这些攻击可以不知不觉地修改LLM输出。本文讨论了第三方API集成带来的独特挑战,并为提高LLM生态系统的安全性提供了战略可能性。我们的代码发布于。原创 2024-07-15 13:56:13 · 135 阅读 · 0 评论 -
Leveraging Large Language Models for Preliminary Security Risk Analysis
初步安全风险分析(PSRA)提供了一种快速方法来识别、评估特定场景中的潜在风险并提出补救措施。有效的PSRA所需的广泛专业知识和大量与文本相关的任务阻碍了在关键任务背景下进行快速评估,而在关键任务环境下,及时和迅速的行动至关重要。PSRA中人类专家的速度和准确性会显著影响响应时间。大型语言模型可以在比人类更短的时间内快速总结信息。据我们所知,先前没有研究探讨PSRA中微调模型(FTM)的功能。我们的案例研究调查了FTM协助PSRA从业者的熟练程度。原创 2024-07-11 15:36:07 · 81 阅读 · 0 评论 -
Adversarial Evasion Attack Efficiency against Large Language Models
大型语言模型(LLM)对文本分类很有价值,但它们的漏洞不容忽视。它们缺乏对抗性示例的稳健性,因此有必要了解不同类型扰动的影响,并评估这些攻击是否可以由普通用户通过少量扰动和对部署的LLM的少量查询复制。这项工作分析了在情绪分类任务中针对五种不同LLM的三种不同类型的对抗性攻击的有效性、效率和实用性。所获得的结果表明,单词级和字符级攻击的影响非常明显。单词攻击更有效,但字符和更受约束的攻击更实用,并且需要减少扰动和查询的数量。原创 2024-07-08 10:04:43 · 159 阅读 · 0 评论 -
Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices
大型语言模型(LLM)极大地改变了自然语言处理(NLP)的格局。它们的影响涵盖了各种各样的任务,彻底改变了我们理解语言和生成的方式。尽管如此,LLM除了具有显著的实用性外,还引入了关键的安全和风险考虑因素。这些挑战需要仔细检查,以确保负责任的部署和防范潜在的漏洞。本研究论文从五个主题角度深入调查了与LLM相关的安全和隐私问题:安全和隐私担忧、对抗性攻击的漏洞、滥用LLM造成的潜在危害、应对这些挑战的缓解策略,同时确定了当前策略的局限性。原创 2024-07-07 11:36:13 · 208 阅读 · 0 评论 -
Calibrating Large Language Models Using Their Generations Only
随着大型语言模型(LLM)越来越多地部署在面向用户的应用程序中,通过准确量化模型对其预测的信心来建立信任和维护安全变得更加重要。然而,找到有效的方法来校准LLM——尤其是当模型的唯一接口是它们生成的文本时——仍然是一个挑战。我们提出了APRICOT(置信目标的辅助预测):一种设置置信目标并训练额外模型的方法,该模型仅基于LLM的文本输入和输出来预测LLM的置信度。原创 2024-07-06 16:48:45 · 172 阅读 · 0 评论 -
BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING
主流后门攻击方法通常需要大量的中毒调整数据,这限制了它们的实用性,并可能在应用于大型语言模型(LLM)时降低整体性能。为了解决这些问题,我们首次将后门注入定义为一个轻量级的知识编辑问题,并引入了BadEdit攻击框架。BadEdit直接更改LLM参数,将后门与高效的编辑技术结合起来。它在几个方面优于现有的后门注入技术:(1)实用性:BadEdit只需要一个最小的注入数据集(15个样本)。(2) 效率:BadEdit只调整参数的一个子集,从而显著减少时间消耗。原创 2024-07-06 16:42:51 · 250 阅读 · 0 评论 -
Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models
联邦学习(FL)使多方能够在不需要直接数据共享的情况下协作微调大型语言模型(LLM)。理想情况下,通过对符合人类偏好和安全原则的去中心化数据进行训练,联合指令调整可以产生一个可以以有益和安全的方式运行的LLM。在本文中,我们首次通过提出一种简单、隐蔽但有效的安全攻击方法,揭示了联邦信息技术中安全对齐的脆弱性。具体而言,恶意客户端可以在不需要手动操作的情况下自动生成攻击数据,并通过对其本地LLM进行此类攻击数据的训练来攻击FedIT系统。原创 2024-07-05 14:41:59 · 98 阅读 · 0 评论 -
Understanding Privacy Risks of Embeddings Induced by Large Language Models
大型语言模型(LLM)显示出通用人工智能的早期迹象,但与幻觉作斗争。缓解这些幻觉的一个有前途的解决方案是将外部知识存储为嵌入,帮助LLM进行检索增强生成。然而,这种解决方案有损害隐私的风险,因为最近的研究实验表明,可以通过预先训练的语言模型从文本嵌入中部分重建原始文本。LLM相对于传统的预训练模型的显著优势可能会加剧这些担忧。为此,我们研究了当使用LLM时,从这些嵌入中重构原始知识和预测实体属性的有效性。实证研究结果表明,与预训练模型相比,LLM显著提高了两个评估任务的准确性,无论文本是分布中还是不分布。原创 2024-07-01 11:30:23 · 56 阅读 · 0 评论 -
Exploring the Privacy Protection Capabilities of Chinese Large Language Models
大型语言模型(LLM)以其在各种任务中令人印象深刻的能力而闻名,它极大地推动了人工智能的发展。然而,这些进步引起了人们对隐私和安全影响的日益担忧。为了解决这些问题并解释这些模型中固有的风险,我们设计了一个三层渐进框架,专门用于评估语言系统中的隐私。该框架由每一层逐渐复杂和深入的隐私测试任务组成。我们的主要目标是全面评估大型语言模型对私人信息的敏感性,研究它们在不同场景中识别、管理和保护敏感数据的有效性。这一系统评估有助于我们了解这些模型在多大程度上符合隐私保护准则,以及其固有的隐私保护措施的有效性。原创 2024-06-30 11:58:05 · 144 阅读 · 0 评论 -
AUTOATTACKER: A Large Language Model Guided System to Implement Automatic Cyber-attacks
大型语言模型(LLM)在自然语言任务中取得了令人印象深刻的结果,安全研究人员开始在进攻和防御系统中使用它们。在网络安全领域,已经有多项利用LLM的研究工作,重点关注网络钓鱼和恶意软件生成等攻击的入侵前阶段。然而,到目前为止,对于在各种攻击技术和环境下,是否可以利用基于LLM的系统来模拟通常是人为操作的攻击的到达后阶段,或“键盘上的手”攻击,还缺乏全面的研究。随着LLM的发展,它们可能能够自动化入侵前和入侵后的攻击阶段。原创 2024-06-30 11:53:28 · 214 阅读 · 0 评论 -
Engineering Safety Requirements for Autonomous Driving with Large Language Models
需求工件的更改和更新在汽车领域可能很频繁,这对SafetyOps来说是一个挑战。大型语言模型(LLM)具有令人印象深刻的自然语言理解和生成能力,可以在每次更新后自动细化和分解需求方面发挥关键作用。在这项研究中,我们提出了一个提示和LLM管道的原型,该管道接收项目定义并以安全要求的形式输出解决方案。该管道还对需求数据集进行审查,并确定冗余或矛盾的需求。我们首先确定了执行HARA的必要特征,然后定义了测试来评估LLM满足这些标准的能力。原创 2024-06-29 11:39:54 · 84 阅读 · 0 评论 -
S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language
大型语言模型(LLM)因其革命性的功能而备受关注。然而,人们也越来越担心其安全影响,因为LLM产生的输出可能包含各种有害内容,因此在模型部署之前迫切需要对LLM进行全面的安全评估。现有的安全评估基准仍然存在以下局限性:1)缺乏统一的风险分类法,难以系统地对不同类型的风险进行分类、评估和认识;2)薄弱的风险限制了有效反映LLM安全性的能力;3)测试提示生成、选择和输出风险评估缺乏自动化。为了应对这些关键挑战,我们提出了S-Eval,这是一种新的全面、多维和开放式LLM安全评估基准。原创 2024-06-28 10:09:59 · 297 阅读 · 0 评论 -
Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes
大型语言模型(LLM)正在成为一种突出的生成人工智能工具,用户可以在其中输入查询,LLM生成答案。为了减少伤害和滥用,已经努力使用先进的训练技术,如从人类反馈中强化学习(RLHF),使这些LLM与人类价值观相一致。然而,最近的研究强调了LLM容易受到旨在破坏嵌入式安全护栏的对抗性越狱企图的影响。为了应对这一挑战,本文定义并研究了LLM的拒绝损失,然后提出了一种称为梯度Cuff的方法来检测越狱企图。梯度Cuff利用在拒绝损失景观中观察到的独特特性,包括函数值及其平滑度,设计了一种有效的两步检测策略。原创 2024-06-26 17:07:15 · 222 阅读 · 0 评论 -
Differentially Private Next-Token Prediction of Large Language Models
确保大型语言模型(LLM)的隐私变得越来越重要。实现这一点最广泛采用的技术是DP-SGD,它训练一个模型来保证差分隐私(DP)。然而,DP-SGD高估了对手对模型进行白盒访问的能力,因此导致比SGD更长的训练时间和更大的内存使用量。另一方面,商业LLM部署主要基于云;因此,对LLM的对抗性访问是黑匣子。受这些观察结果的启发,我们提出了集合分布的私有混合(PMixED):一种用于下一个token预测的私有预测协议,利用下一个采样的固有随机性和公共模型来实现差分隐私。原创 2024-06-26 13:40:40 · 156 阅读 · 0 评论 -
Duwak: Dual Watermarks in Large Language Models
随着大型语言模型(LLM)越来越多地用于文本生成任务,审计其使用情况、管理其应用程序并减轻其潜在危害至关重要。现有的水印技术在嵌入单个人类无法察觉和机器可检测的模式方面是有效的,而不会显著影响生成的文本质量和语义。然而,检测水印的效率,即断言检测具有显著性和抗后编辑稳健性所需的最小token数量,仍然存在争议。在本文中,我们提出Duwak,通过在token概率分布和采样方案中嵌入双秘密模式,从根本上提高水印的效率和质量。原创 2024-06-25 17:14:12 · 67 阅读 · 0 评论 -
Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models
大型语言模型(LLM)已成为自然语言处理(NLP)领域的基石,在理解和生成类人文本方面提供了变革性的能力。然而,随着它们的日益突出,这些模型的安全性和脆弱性方面已经引起了极大的关注。本文对针对LLM的各种形式的攻击进行了全面的调查,讨论了这些攻击的性质和机制、潜在影响以及当前的防御策略。我们深入研究了诸如旨在操纵模型输出的对抗性攻击、影响模型训练的数据中毒以及与训练数据利用相关的隐私问题等主题。本文还探讨了不同攻击方法的有效性、LLM对这些攻击的抵御能力,以及对模型完整性和用户信任的影响。原创 2024-06-25 14:08:50 · 130 阅读 · 0 评论 -
Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?
指令调优的大型语言模型(LLM)在许多实际应用中显示出令人印象深刻的结果,但它们缺乏计算机科学其他领域常见的基本安全功能,特别是指令和数据的明确分离。这使得它们容易受到诸如间接提示注入之类的操作的影响,并且通常不适合于安全关键任务。令人惊讶的是,目前还没有确定的定义或基准来量化这一现象。在这项工作中,我们通过引入一种正式的指令数据分离措施和一种可从模型输出中计算的经验变量来缩小这一差距。我们还提供了一个新的数据集SEP,它允许估计真实世界模型的度量。原创 2024-06-24 14:44:38 · 62 阅读 · 0 评论 -
Automatic and Universal Prompt Injection Attacks against Large Language Models
大型语言模型(LLM)擅长处理和生成人类语言,其解释和遵循指令的能力为其提供了动力。然而,它们的能力可以通过提示注入攻击加以利用。这些攻击操纵LLM集成应用程序生成与攻击者注入的内容一致的响应,从而偏离用户的实际请求。这些袭击带来的巨大风险凸显了对这些威胁进行彻底了解的必要性。然而,这一领域的研究面临着挑战,因为缺乏针对此类攻击的统一目标,而且这些攻击依赖于手工制作的提示,这使得对提示注入稳健性的全面评估变得复杂。原创 2024-06-23 00:07:43 · 110 阅读 · 0 评论 -
Privacy-preserving Fine-tuning of Large Language Models through Flatness
最近,随着ChatGPT等大型语言模型的发展,与大型语言模型(LLM)的使用相关的隐私问题日益严重。在现有工作中探索了差分隐私(DP)技术,以降低其隐私风险,代价是泛化能力下降。我们的论文揭示了DP训练模型的损失景观的平坦性在其隐私性和泛化之间的权衡中起着至关重要的作用。我们进一步提出了一个整体框架来实施适当的权重平坦性,这大大提高了具有竞争性隐私保护的模型泛化能力。原创 2024-06-22 11:38:48 · 208 阅读 · 0 评论 -
Privacy-Aware Semantic Cache for Large Language Models
像ChatGPT和Llama2这样的大型语言模型(LLM)已经彻底改变了自然语言处理和搜索引擎动力学。然而,这些模型产生了异常高的计算成本。例如,GPT-3由1750亿个参数组成,其中推理需要数十亿次浮点运算。缓存是降低重复查询LLM推理成本的自然解决方案,重复查询约占总查询的31%。然而,现有的缓存方法无法找到LLM查询之间的语义相似性,导致了不可接受的错误命中率。本文介绍了MeanCache,这是一种以用户为中心的LLM语义缓存,用于识别语义相似的查询,以确定缓存命中或未命中。原创 2024-06-18 17:35:57 · 87 阅读 · 0 评论