LLM Security and Privacy
文章平均质量分 63
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Adversarial Attacks on Large Language Models in Medicine
将大型语言模型 (LLM) 集成到医疗保健应用程序中,为医疗诊断、治疗建议和患者护理提供了有希望的进步。然而,LLM 对对抗性攻击的敏感性构成了重大威胁,在微妙的医疗环境中可能导致有害结果。本研究调查了 LLM 在三项医疗任务中对两种对抗性攻击的脆弱性。利用真实世界的患者数据,我们证明了开源和专有 LLM 都容易受到跨多个任务的操纵。这项研究进一步揭示了,与一般域任务相比,特定域任务在模型微调中需要更多的对抗数据才能有效执行攻击,尤其是对于功能更强大的模型。原创 2024-10-21 14:40:30 · 120 阅读 · 0 评论 -
Assessing Adversarial Robustness of Large Language Models: An Empirical Study
大型语言模型 (LLM) 彻底改变了自然语言处理,但它们对对抗性攻击的稳健性仍然是一个关键问题。我们提出了一种新颖的白盒式攻击方法,该方法暴露了领先的开源 LLM(包括 Llama、OPT 和 T5)中的漏洞。我们评估了模型大小、结构和微调策略对它们对对抗性扰动的抵抗力的影响。我们对五种不同的文本分类任务进行了全面评估,为 LLM 稳健性建立了新的基准。本研究的结果对 LLM 在实际应用中的可靠部署具有深远的影响,并有助于推动值得信赖的 AI 系统的发展。原创 2024-10-13 12:01:17 · 108 阅读 · 0 评论 -
A Survey of Backdoor Attacks and Defenses on Large Language Models
大型语言模型 (LLM) 弥合了人类语言理解和复杂问题解决之间的差距,在多项 NLP 任务上实现了最先进的性能,特别是在少样本和零样本设置中。尽管 LMM 的功效显而易见,但由于计算资源的限制,用户必须使用开源语言模型或将整个训练过程外包给第三方平台。然而,研究表明,语言模型容易受到潜在安全漏洞的影响,特别是在后门攻击中。后门攻击旨在通过毒害训练样本或模型权重,将目标漏洞引入到语言模型中,从而使攻击者能够通过恶意触发器操纵模型响应。原创 2024-10-01 10:00:00 · 122 阅读 · 0 评论 -
Mitigating Exaggerated Safety in Large Language Models
随着大型语言模型 (LLM) 的普及,将模型安全性与实用性相结合变得越来越重要。面临的挑战是确保LLM能够识别并拒绝危险的提示,而不牺牲他们提供帮助的能力。“夸大安全”的问题表明这有多么困难。为了减少过度的安全行为(发现有 26.1% 的安全提示被错误分类为危险并被拒绝),我们结合使用 XSTest 数据集提示以及交互式、上下文和少量提示来检查 LLM 的决策范围例如 Llama2、Gemma、Command R+ 和 Phi-3。原创 2024-09-27 12:00:00 · 31 阅读 · 0 评论 -
Jailbreak Attacks and Defenses Against Large Language Models: A Survey
大型语言模型(LLM)在各种文本生成任务中表现出色,包括问答、翻译、代码补全等。然而,LLM 的过度协助带来了“越狱”的挑战,这导致模型生成通过设计对抗性提示来恶意应对使用政策和社会。随着利用LLM不同漏洞的越狱攻击方法的出现,相应的安全调整措施也在不断发展。在本文中,我们提出了全面而详细的越狱攻击和防御方法的分类。例如,根据目标模型的透明性,将攻击方法分为黑盒攻击和白盒攻击。同时,我们将防御方法分为提示级防御和模型级防御。原创 2024-09-27 11:00:00 · 44 阅读 · 0 评论 -
A Causal Explainable Guardrails for Large Language Models
大型语言模型 (LLM) 在自然语言任务中表现出令人印象深刻的性能,但它们的输出可能会表现出不良属性或偏差。将 LLM 引导至所需属性的现有方法通常假定无偏见的表示,并且仅依赖于转向提示。然而,从预训练中学到的表示可能会引入影响转向过程的语义偏差,从而导致次优结果。我们提出了 LLMGuardrail,这是一个新颖的框架,它结合了因果分析和对抗性学习,以在 LLM 中获得无偏的转向表示。LLMGuardrail 系统地识别并阻止了偏见的混杂效应,从而能够提取无偏的转向表示。原创 2024-09-07 11:11:02 · 181 阅读 · 0 评论 -
Eraser: Jailbreaking Defense in Large Language Models via Unlearning Harmful Knowledge
越狱攻击可以使大型语言模型 (LLM) 绕过保护措施并生成有害内容。现有的越狱防御方法未能解决模型中存在有害知识的基本问题,从而导致 LLM 面临潜在的越狱风险。在本文中,我们提出了一种名为 Eraser 的新型防御方法,主要包括三个目标:忘掉有害知识、保留常识和保持安全对齐。直觉是,如果 LLM 忘记了回答有害问题所需的特定知识,它将不再有能力回答有害问题。Erase 的训练实际上并不需要模型自身的有害知识,它可以从忘记与有害查询相关的一般答案中受益,这意味着它不需要红队的帮助。原创 2024-09-05 09:54:51 · 45 阅读 · 0 评论 -
Poisoning Web-Scale Training Datasets is Practical
深度学习模型通常在从互联网抓取的分布式网络规模数据集上进行训练。在本文中,我们介绍了两种新的数据集中毒攻击,它们故意将恶意示例引入模型的性能。我们的攻击立即变得切实可行,今天可能会毒害10个流行的数据集。我们的第一个攻击是分裂视图中毒,它利用互联网内容的可变性来确保数据集注释器对数据集的初始视图与后续客户端下载的视图不同。通过利用特定的无效信任假设,我们展示了如何以60美元的价格毒害0.01%的LAION-400M或COYO-700M数据集。原创 2024-08-24 21:00:51 · 317 阅读 · 0 评论 -
JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models
大型语言模型(LLM)的激增突显了人们对其安全漏洞的担忧,特别是对越狱攻击的担忧,在越狱攻击中,对手设计越狱提示来规避潜在滥用的安全机制。解决这些问题需要对越狱提示进行全面分析,以评估LLM的防御能力并找出潜在的弱点。然而,评估越狱性能和理解提示特征的复杂性使得这种分析很费力。我们与领域专家合作,描述问题特征,并提出一个LLM辅助框架,以简化分析过程。它提供自动越狱评估,以方便性能评估,并支持对提示中的组件和关键字进行分析。原创 2024-08-18 12:19:26 · 160 阅读 · 0 评论 -
Developing Safe and Responsible Large Language Model
大型语言模型(LLMs)已经推进了各种自然语言处理(NLP)任务,如文本生成和翻译等。然而,这些模型通常会生成可能使偏见永久化的文本。现有的减轻这些偏见的方法通常会损害知识保留。本研究探讨了LLM是否可以在不牺牲知识或理解的情况下产生安全、无偏见的输出。我们介绍了安全和负责任的大型语言模型(SRLLM),该模型在固有安全的微调LLM之上进行了指令微调,以减少生成文本中的偏见。我们开发了一个专门的数据集,其中包含不安全和相应安全变体的示例,以训练SRLLM识别和纠正有偏见的文本。原创 2024-08-15 15:32:09 · 31 阅读 · 0 评论 -
Advancing the Robustness of Large Language Models through Self-Denoised Smoothing
尽管大型语言模型(LLM)取得了重大成功,但它们容易受到对抗性干扰,包括最近的越狱攻击,这引起了人们的极大关注。然而,这些模型的规模越来越大,而且它们的访问权限有限,这使得提高它们的鲁棒性成为一项具有挑战性的任务。在各种防御策略中,随机平滑显示了LLM的巨大潜力,因为它不需要完全访问模型的参数或通过对抗训练进行微调。然而,随机平滑涉及在模型预测之前向输入添加噪声,最终模型的鲁棒性在很大程度上取决于模型在这些噪声污染数据上的性能。其有效性往往受到模型在噪声数据上的次优性能的限制。原创 2024-08-14 09:46:28 · 125 阅读 · 0 评论 -
Foundational Challenges in Assuring Alignment and Safety of Large Language Models
这项工作确定了确保大型语言模型(LLM)的一致性和安全性的18个基本挑战。这些挑战分为三类:对LLM的科学理解、开发和部署方法以及社会技术挑战。基于已识别的挑战,我们提出了200多个具体的研究问题。原创 2024-08-10 10:33:54 · 191 阅读 · 0 评论 -
Goal-guided Generative Prompt Injection Attack on Large Language Models
当前的大型语言模型(LLM)为大规模面向用户的自然语言任务提供了坚实的基础。大量用户可以通过用户界面轻松注入对抗性文本或指令,从而导致LLM模型安全挑战。尽管目前有大量关于提示注入攻击的研究,但这些黑盒攻击大多使用启发式策略。目前尚不清楚这些启发式策略如何与攻击的成功率相关,从而有效地提高模型的鲁棒性。为了解决这个问题,我们重新定义了攻击的目标:最大化干净文本和对抗文本的条件概率之间的KL分歧。此外,我们证明了最大化KL散度等价于最大化嵌入表示x和x′之间的马氏距离。原创 2024-08-06 21:22:07 · 295 阅读 · 0 评论 -
Hidden You Malicious Goal Into Benign Narratives
对语言模型模型(LLM)的越狱攻击需要精心制作提示,旨在利用模型生成恶意内容。现有的越狱攻击可以成功欺骗LLM,但它们不能欺骗人类。本文提出了一种新型的越狱攻击,可以欺骗LLM和人类(即安全分析师)。我们的观点的关键见解是借鉴了社会心理学——如果谎言隐藏在真相中,人类很容易被欺骗。基于这一认识,我们提出了逻辑链注入攻击,将恶意注入良性真相。逻辑链注入攻击首先将其恶意目标伪装成一系列良性叙述,然后将叙述分发到相关的良性文章中,其中包含无可置疑的事实。这样,新生成的提示不仅可以欺骗LLM,还可以欺骗人类。原创 2024-07-20 23:52:53 · 50 阅读 · 0 评论 -
ATTACKS ON THIRD-PARTY APIS OF LARGE LANGUAGE MODELS
大型语言模型(LLM)服务最近开始提供一个插件生态系统来与第三方API服务交互。这项创新增强了LLM的能力,但也带来了风险,因为这些由各种第三方开发的插件不容易被信任。本文提出了一种新的攻击框架,用于检查包含第三方服务的LLM平台中的安全和安全漏洞。将我们的框架专门应用于广泛使用的LLM,我们可以识别跨第三方API的各种域的真实恶意攻击,这些攻击可以不知不觉地修改LLM输出。本文讨论了第三方API集成带来的独特挑战,并为提高LLM生态系统的安全性提供了战略可能性。我们的代码发布于。原创 2024-07-15 13:56:13 · 100 阅读 · 0 评论 -
Leveraging Large Language Models for Preliminary Security Risk Analysis
初步安全风险分析(PSRA)提供了一种快速方法来识别、评估特定场景中的潜在风险并提出补救措施。有效的PSRA所需的广泛专业知识和大量与文本相关的任务阻碍了在关键任务背景下进行快速评估,而在关键任务环境下,及时和迅速的行动至关重要。PSRA中人类专家的速度和准确性会显著影响响应时间。大型语言模型可以在比人类更短的时间内快速总结信息。据我们所知,先前没有研究探讨PSRA中微调模型(FTM)的功能。我们的案例研究调查了FTM协助PSRA从业者的熟练程度。原创 2024-07-11 15:36:07 · 49 阅读 · 0 评论 -
Adversarial Evasion Attack Efficiency against Large Language Models
大型语言模型(LLM)对文本分类很有价值,但它们的漏洞不容忽视。它们缺乏对抗性示例的稳健性,因此有必要了解不同类型扰动的影响,并评估这些攻击是否可以由普通用户通过少量扰动和对部署的LLM的少量查询复制。这项工作分析了在情绪分类任务中针对五种不同LLM的三种不同类型的对抗性攻击的有效性、效率和实用性。所获得的结果表明,单词级和字符级攻击的影响非常明显。单词攻击更有效,但字符和更受约束的攻击更实用,并且需要减少扰动和查询的数量。原创 2024-07-08 10:04:43 · 128 阅读 · 0 评论 -
Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices
大型语言模型(LLM)极大地改变了自然语言处理(NLP)的格局。它们的影响涵盖了各种各样的任务,彻底改变了我们理解语言和生成的方式。尽管如此,LLM除了具有显著的实用性外,还引入了关键的安全和风险考虑因素。这些挑战需要仔细检查,以确保负责任的部署和防范潜在的漏洞。本研究论文从五个主题角度深入调查了与LLM相关的安全和隐私问题:安全和隐私担忧、对抗性攻击的漏洞、滥用LLM造成的潜在危害、应对这些挑战的缓解策略,同时确定了当前策略的局限性。原创 2024-07-07 11:36:13 · 181 阅读 · 0 评论 -
Calibrating Large Language Models Using Their Generations Only
随着大型语言模型(LLM)越来越多地部署在面向用户的应用程序中,通过准确量化模型对其预测的信心来建立信任和维护安全变得更加重要。然而,找到有效的方法来校准LLM——尤其是当模型的唯一接口是它们生成的文本时——仍然是一个挑战。我们提出了APRICOT(置信目标的辅助预测):一种设置置信目标并训练额外模型的方法,该模型仅基于LLM的文本输入和输出来预测LLM的置信度。原创 2024-07-06 16:48:45 · 132 阅读 · 0 评论 -
BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING
主流后门攻击方法通常需要大量的中毒调整数据,这限制了它们的实用性,并可能在应用于大型语言模型(LLM)时降低整体性能。为了解决这些问题,我们首次将后门注入定义为一个轻量级的知识编辑问题,并引入了BadEdit攻击框架。BadEdit直接更改LLM参数,将后门与高效的编辑技术结合起来。它在几个方面优于现有的后门注入技术:(1)实用性:BadEdit只需要一个最小的注入数据集(15个样本)。(2) 效率:BadEdit只调整参数的一个子集,从而显著减少时间消耗。原创 2024-07-06 16:42:51 · 174 阅读 · 0 评论 -
Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models
联邦学习(FL)使多方能够在不需要直接数据共享的情况下协作微调大型语言模型(LLM)。理想情况下,通过对符合人类偏好和安全原则的去中心化数据进行训练,联合指令调整可以产生一个可以以有益和安全的方式运行的LLM。在本文中,我们首次通过提出一种简单、隐蔽但有效的安全攻击方法,揭示了联邦信息技术中安全对齐的脆弱性。具体而言,恶意客户端可以在不需要手动操作的情况下自动生成攻击数据,并通过对其本地LLM进行此类攻击数据的训练来攻击FedIT系统。原创 2024-07-05 14:41:59 · 60 阅读 · 0 评论 -
Understanding Privacy Risks of Embeddings Induced by Large Language Models
大型语言模型(LLM)显示出通用人工智能的早期迹象,但与幻觉作斗争。缓解这些幻觉的一个有前途的解决方案是将外部知识存储为嵌入,帮助LLM进行检索增强生成。然而,这种解决方案有损害隐私的风险,因为最近的研究实验表明,可以通过预先训练的语言模型从文本嵌入中部分重建原始文本。LLM相对于传统的预训练模型的显著优势可能会加剧这些担忧。为此,我们研究了当使用LLM时,从这些嵌入中重构原始知识和预测实体属性的有效性。实证研究结果表明,与预训练模型相比,LLM显著提高了两个评估任务的准确性,无论文本是分布中还是不分布。原创 2024-07-01 11:30:23 · 38 阅读 · 0 评论 -
Exploring the Privacy Protection Capabilities of Chinese Large Language Models
大型语言模型(LLM)以其在各种任务中令人印象深刻的能力而闻名,它极大地推动了人工智能的发展。然而,这些进步引起了人们对隐私和安全影响的日益担忧。为了解决这些问题并解释这些模型中固有的风险,我们设计了一个三层渐进框架,专门用于评估语言系统中的隐私。该框架由每一层逐渐复杂和深入的隐私测试任务组成。我们的主要目标是全面评估大型语言模型对私人信息的敏感性,研究它们在不同场景中识别、管理和保护敏感数据的有效性。这一系统评估有助于我们了解这些模型在多大程度上符合隐私保护准则,以及其固有的隐私保护措施的有效性。原创 2024-06-30 11:58:05 · 112 阅读 · 0 评论 -
AUTOATTACKER: A Large Language Model Guided System to Implement Automatic Cyber-attacks
大型语言模型(LLM)在自然语言任务中取得了令人印象深刻的结果,安全研究人员开始在进攻和防御系统中使用它们。在网络安全领域,已经有多项利用LLM的研究工作,重点关注网络钓鱼和恶意软件生成等攻击的入侵前阶段。然而,到目前为止,对于在各种攻击技术和环境下,是否可以利用基于LLM的系统来模拟通常是人为操作的攻击的到达后阶段,或“键盘上的手”攻击,还缺乏全面的研究。随着LLM的发展,它们可能能够自动化入侵前和入侵后的攻击阶段。原创 2024-06-30 11:53:28 · 102 阅读 · 0 评论 -
Engineering Safety Requirements for Autonomous Driving with Large Language Models
需求工件的更改和更新在汽车领域可能很频繁,这对SafetyOps来说是一个挑战。大型语言模型(LLM)具有令人印象深刻的自然语言理解和生成能力,可以在每次更新后自动细化和分解需求方面发挥关键作用。在这项研究中,我们提出了一个提示和LLM管道的原型,该管道接收项目定义并以安全要求的形式输出解决方案。该管道还对需求数据集进行审查,并确定冗余或矛盾的需求。我们首先确定了执行HARA的必要特征,然后定义了测试来评估LLM满足这些标准的能力。原创 2024-06-29 11:39:54 · 44 阅读 · 0 评论 -
S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language
大型语言模型(LLM)因其革命性的功能而备受关注。然而,人们也越来越担心其安全影响,因为LLM产生的输出可能包含各种有害内容,因此在模型部署之前迫切需要对LLM进行全面的安全评估。现有的安全评估基准仍然存在以下局限性:1)缺乏统一的风险分类法,难以系统地对不同类型的风险进行分类、评估和认识;2)薄弱的风险限制了有效反映LLM安全性的能力;3)测试提示生成、选择和输出风险评估缺乏自动化。为了应对这些关键挑战,我们提出了S-Eval,这是一种新的全面、多维和开放式LLM安全评估基准。原创 2024-06-28 10:09:59 · 188 阅读 · 0 评论 -
Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes
大型语言模型(LLM)正在成为一种突出的生成人工智能工具,用户可以在其中输入查询,LLM生成答案。为了减少伤害和滥用,已经努力使用先进的训练技术,如从人类反馈中强化学习(RLHF),使这些LLM与人类价值观相一致。然而,最近的研究强调了LLM容易受到旨在破坏嵌入式安全护栏的对抗性越狱企图的影响。为了应对这一挑战,本文定义并研究了LLM的拒绝损失,然后提出了一种称为梯度Cuff的方法来检测越狱企图。梯度Cuff利用在拒绝损失景观中观察到的独特特性,包括函数值及其平滑度,设计了一种有效的两步检测策略。原创 2024-06-26 17:07:15 · 157 阅读 · 0 评论 -
Differentially Private Next-Token Prediction of Large Language Models
确保大型语言模型(LLM)的隐私变得越来越重要。实现这一点最广泛采用的技术是DP-SGD,它训练一个模型来保证差分隐私(DP)。然而,DP-SGD高估了对手对模型进行白盒访问的能力,因此导致比SGD更长的训练时间和更大的内存使用量。另一方面,商业LLM部署主要基于云;因此,对LLM的对抗性访问是黑匣子。受这些观察结果的启发,我们提出了集合分布的私有混合(PMixED):一种用于下一个token预测的私有预测协议,利用下一个采样的固有随机性和公共模型来实现差分隐私。原创 2024-06-26 13:40:40 · 117 阅读 · 0 评论 -
Duwak: Dual Watermarks in Large Language Models
随着大型语言模型(LLM)越来越多地用于文本生成任务,审计其使用情况、管理其应用程序并减轻其潜在危害至关重要。现有的水印技术在嵌入单个人类无法察觉和机器可检测的模式方面是有效的,而不会显著影响生成的文本质量和语义。然而,检测水印的效率,即断言检测具有显著性和抗后编辑稳健性所需的最小token数量,仍然存在争议。在本文中,我们提出Duwak,通过在token概率分布和采样方案中嵌入双秘密模式,从根本上提高水印的效率和质量。原创 2024-06-25 17:14:12 · 50 阅读 · 0 评论 -
Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models
大型语言模型(LLM)已成为自然语言处理(NLP)领域的基石,在理解和生成类人文本方面提供了变革性的能力。然而,随着它们的日益突出,这些模型的安全性和脆弱性方面已经引起了极大的关注。本文对针对LLM的各种形式的攻击进行了全面的调查,讨论了这些攻击的性质和机制、潜在影响以及当前的防御策略。我们深入研究了诸如旨在操纵模型输出的对抗性攻击、影响模型训练的数据中毒以及与训练数据利用相关的隐私问题等主题。本文还探讨了不同攻击方法的有效性、LLM对这些攻击的抵御能力,以及对模型完整性和用户信任的影响。原创 2024-06-25 14:08:50 · 64 阅读 · 0 评论 -
Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?
指令调优的大型语言模型(LLM)在许多实际应用中显示出令人印象深刻的结果,但它们缺乏计算机科学其他领域常见的基本安全功能,特别是指令和数据的明确分离。这使得它们容易受到诸如间接提示注入之类的操作的影响,并且通常不适合于安全关键任务。令人惊讶的是,目前还没有确定的定义或基准来量化这一现象。在这项工作中,我们通过引入一种正式的指令数据分离措施和一种可从模型输出中计算的经验变量来缩小这一差距。我们还提供了一个新的数据集SEP,它允许估计真实世界模型的度量。原创 2024-06-24 14:44:38 · 36 阅读 · 0 评论 -
Automatic and Universal Prompt Injection Attacks against Large Language Models
大型语言模型(LLM)擅长处理和生成人类语言,其解释和遵循指令的能力为其提供了动力。然而,它们的能力可以通过提示注入攻击加以利用。这些攻击操纵LLM集成应用程序生成与攻击者注入的内容一致的响应,从而偏离用户的实际请求。这些袭击带来的巨大风险凸显了对这些威胁进行彻底了解的必要性。然而,这一领域的研究面临着挑战,因为缺乏针对此类攻击的统一目标,而且这些攻击依赖于手工制作的提示,这使得对提示注入稳健性的全面评估变得复杂。原创 2024-06-23 00:07:43 · 44 阅读 · 0 评论 -
Privacy-preserving Fine-tuning of Large Language Models through Flatness
最近,随着ChatGPT等大型语言模型的发展,与大型语言模型(LLM)的使用相关的隐私问题日益严重。在现有工作中探索了差分隐私(DP)技术,以降低其隐私风险,代价是泛化能力下降。我们的论文揭示了DP训练模型的损失景观的平坦性在其隐私性和泛化之间的权衡中起着至关重要的作用。我们进一步提出了一个整体框架来实施适当的权重平坦性,这大大提高了具有竞争性隐私保护的模型泛化能力。原创 2024-06-22 11:38:48 · 159 阅读 · 0 评论 -
Privacy-Aware Semantic Cache for Large Language Models
像ChatGPT和Llama2这样的大型语言模型(LLM)已经彻底改变了自然语言处理和搜索引擎动力学。然而,这些模型产生了异常高的计算成本。例如,GPT-3由1750亿个参数组成,其中推理需要数十亿次浮点运算。缓存是降低重复查询LLM推理成本的自然解决方案,重复查询约占总查询的31%。然而,现有的缓存方法无法找到LLM查询之间的语义相似性,导致了不可接受的错误命中率。本文介绍了MeanCache,这是一种以用户为中心的LLM语义缓存,用于识别语义相似的查询,以确定缓存命中或未命中。原创 2024-06-18 17:35:57 · 48 阅读 · 0 评论 -
Risk and Response in Large Language Models: Evaluating Key Threat Categories
随着大型语言模型在各种应用中越来越普遍,本文探讨了风险评估这一紧迫问题。我们专注于奖励模型如何感知和分类不同类型的风险,深入研究基于偏好的训练数据的主观性质带来的挑战。奖励模型旨在微调预训练的LLM,使其与人类价值观相一致。通过利用人类红团队数据集,我们分析了主要的风险类别,包括信息危害、恶意使用和歧视/仇恨内容。我们的研究结果表明,LLM倾向于认为信息危害的危害较小,这一发现得到了专门开发的回归模型的证实。此外,我们的分析表明,与其他风险相比,LLM对信息危害的反应不那么严格。原创 2024-06-09 10:56:20 · 43 阅读 · 0 评论 -
Detoxifying Large Language Models via Knowledge Editing
本文研究了使用知识编辑技术对大型语言模型(LLM)进行解毒。我们构建了一个基准,即SafeEdit,它涵盖了九个不安全的类别,并提供了各种强大的攻击提示,并为系统评估提供了全面的指标。我们对几种知识编辑方法进行了实验,表明知识编辑有可能有效地解毒LLM,但对总体性能的影响有限。然后,我们提出了一个简单而有效的基线,称为术中神经监测排毒(DINM),仅通过一个实例在几个调整步骤内降低LLM的毒性。原创 2024-06-09 10:33:49 · 83 阅读 · 0 评论 -
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models
越狱攻击对于识别和减轻大型语言模型(LLM)的安全漏洞至关重要。它们旨在绕过保障措施,引出被禁止的输出。然而,由于各种越狱方法之间的显著差异,社区没有可用的标准实施框架,这限制了全面的安全评估。本文介绍了EasyJailbreak,这是一个统一的框架,简化了针对LLM的越狱攻击的构建和评估。它使用四个组件构建越狱攻击:Selector、Mutator、Constraint和Evaluator。这种模块化框架使研究人员能够轻松地从新组件和现有组件的组合中构建攻击。原创 2024-06-03 17:35:38 · 209 阅读 · 1 评论 -
Unmasking the Shadows of AI: Investigating Deceptive Capabilities in Large Language Models
这项研究批判性地探索了人工智能欺骗的复杂景观,重点研究了大型语言模型(LLM)的欺骗行为。我的目标是阐明这个问题,审视围绕它的话语,然后深入研究它的分类和后果。本文首先对2023年人工智能安全峰会(ASS)进行了评估,并引入了LLM,强调了其欺骗性行为背后的多维偏见。通过阐明算法偏见并探索定义“欺骗”的不同方法,我认为欺骗性人工智能是一种与LLM发展交织在一起的固有现象,它可能演变成一种自我驱动的意图,独立于偏见训练过程。原创 2024-05-29 10:30:47 · 194 阅读 · 0 评论 -
Exploring Safety Generalization Challenges of Large Language Models via Code
大型语言模型(LLM)的快速发展带来了显著的生成能力,但也引发了人们对其潜在误用的担忧。虽然监督微调和从人类反馈中强化学习等策略提高了它们的安全性,但这些方法主要关注自然语言,可能不会推广到其他领域。本文介绍了CodeAttack,这是一个将自然语言输入转换为代码输入的框架,为测试LLM的安全泛化提供了一个新的环境。原创 2024-05-27 14:34:21 · 61 阅读 · 0 评论 -
Many-shot Jailbreaking
我们调查了一系列对大型语言模型的简单长上下文攻击:数百次不良行为的演示。这在Anthropic、OpenAI和Google DeepMind最近部署的更大上下文窗口中是新可行的。我们发现,在不同的现实情况下,这种攻击的有效性遵循幂律,多达数百次。我们在最广泛使用的最先进的闭合重量模型上以及在各种任务中展示了这种攻击的成功。我们的研究结果表明,很长的上下文为LLM提供了一个丰富的新攻击面。原创 2024-05-10 16:20:02 · 55 阅读 · 0 评论