标题
语言模型如何确保无害性?通过推理过程中的隐状态解析越狱和安全对齐
时间
2024.8.3 10:00-11:00 周六上午
入群
论文:How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States
链接:https://arxiv.org/abs/2406.05644
内容大纲
一. 大模型的安全问题
1. 语言模型的发展脉络:参数和数据的scaling law赋予了语言模型更强大的能力
2. 语言模型安全问题的根源:模型对于数据的渴求带来了安全问题
3. 常用的安全措施:安全对齐简介
4. 简单总结:引入可解释性才可能从根本上保证语言模型的可控性
二. 大模型的安全与可解释性
1. 工业界最新的研究进展:OpenAI以及Anthropic的最新可解释性研究如何助力大模型安全
2. 学术界最新的研究进展:
a. 参数分析:确定安全相关的参数
b. 输出分析:基于输出分析模型安全的性质
三. 从隐状态解析语言模型的安全机制
1. 安全机制回顾
a. 正常查询与恶意查询
b. 恶意回复的特征
2. 假设:出于安全考虑的拒绝生成近似于分类任务
3. 安全分类是如何完成的?
a. 语言模型是如何推理的
b. 语言模型如何逐层完成拒绝分类
4. 对齐和越狱是如何作用于语言模型的
a. 使用弱分类器捕捉隐藏状态的特征
b. 语言模型是如何习得道德概念
c. 对齐通关联道德概念与情感分类任务,保证语言模型保证安全
d. 越狱如何导致语言模型的对齐失效
e. 语言模型完整的拒绝流程
引言
近年来,大型语言模型(LLMs)在生成高质量文本方面展现了巨大的潜力。然而,这些模型在面对恶意用户输入时,需要依赖安全对齐机制以避免生成有害内容。不幸的是,“越狱”(jailbreak)技术能够绕过这些安全防护措施,使语言模型生成危险内容,导致人们对于语言模型的不信任。因此,了解语言模型如何工作进而确保其安全性十分必要。
由于大型语言模型通常具有庞大的参数规模,常被视为“黑箱”,这使得对齐和越狱的机制难以解释,导致LLMs的安全性缺乏透明度和可解释性。在我们的研究中,我们使用弱分类器来解释LLMs如何迭代优化中间隐藏状态。我们对比了base model和aligned model的结果,发现LLMs在预训练期间已经学习到伦理和安全概念。而这个概念之前普遍被认为是在对齐过程中才学习到的,并且我们发现LLMs在早期层即可区分恶意输入和正常输入。我们进一步分析了对齐的作用,发现对齐实际上是在早期层结果的特征与中间层的粗粒度情感进行关联,然后进一步优化到生成特定的拒绝标记。而越狱作用的原理则是干扰了对齐赋予的关联能力。我们的研究表明,模型的安全漏洞与其关联能力呈负相关。我们的研究揭示了LLMs安全性的内在机制以及越狱如何绕过安全防护,提供了一个新的视角来理解LLMs的安全性。
嘉宾
周振宏,北京邮电大学计算机学院二年级硕士。研究方向为自然语言处理和可信人工智能,最近的主要关注点包括大模型的安全,大模型的越狱和防御,以及大模型的可解释性。以第一作者身份在AAAI上发表过论文,并维护了目前Github上最受欢迎的大模型安全论文仓库awesome-llm-safety(https://github.com/ydyjya/Awesome-LLM-Safety)。个人主页见 https://ydyjya.github.io
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦