1 intro
1.1 motivation
- 2022年11月ChatGPT的推出引起了全球轰动,推动了人工智能研究、初创企业活动以及大型语言模型(LLM)的消费者采用。
- 到2023年底,LLM的进展持续加速,但人们普遍认为,尽管LLM带来了变革性的经济效益,但它们也存在重大的社会风险。
- 一派AI安全倡导者关注于发展超级智能的存在风险;如AI初创公司Anthropic在其关于AI安全的立场文件中指出,“如果我们构建了一个比人类专家更为能干的AI系统,但它追求与我们最佳利益相冲突的目标,后果可能非常严重。”
- 另一派则认为,在目前的技术基础上构建超级智能系统的风险很小,但同时对现有或近期LLM的误用持严重担忧。
- 这些担忧集中在当前一代语言模型的可靠性、有害内容、偏见、安全性和隐私性等问题上。
1.2 论文贡献
- 论文重点关注隐私这一多方面的话题,包括模型是如何被开发、微调、部署及在训练后如何修改的
- 前两节:回顾了揭示这些隐私风险的现有工作
- 第三节:大型语言模型倾向于记忆其底层训练数据
- 第四节:可以访问模型的隐私攻击暴露底层训练数据
- 第五节:回顾了关于语言模型的DP训练和联合训练的现有工作
- 第六节:缓解训练数据版权问题的早期算法工作
- 第七节:回顾了从LLM中遗忘的早期工作
2 通用术语
2.1 数学符号
D | 数据集。 包括分别用于训练和测试的Dtrain和Dtest。 |
A | 训练算法,将Dtrain映射为h,即一种语言模型 |
h | 由A(Dtrain)产生的语言模型 |
θ | 模型h的参数 |
Z | 隐私攻击 |
U | 遗忘算法 |
s | 一个序列、示例或单个字符串 |
ℓ | 损失函数 |
τ | 阈值。通常在成员推断攻击的背景下使用 |
ϵ, δ | 差分隐私参数 |
2.2 缩写概念
缩写 | 解释 |
---|---|
AUC | 曲线下面积 |
BERT | 双向编码器表示从变换器 |
BLEU | 双语评估替补 |
BPE | 字节对编码 |
CRT | 机密剔除训练 |
DP | 差分隐私 |
DP-SGD | 差分隐私随机梯度下降 |
GPT | 生成预训练变换器 |
GPT-n, ChatGPT, ... | 上述的变体 |
k-NAF | k近接访问自由 |
KNN | k最近邻居 |
LM | 语言模型 |
LLM | 大型语言模型 |
LOO | 留一法 |
LSTM | 长短期记忆网络 |
MIA | 成员推断攻击 |
MLM | 掩蔽语言模型 |
PHI | 个人健康信息 |
PII | 个人可识别信息 |
SGD | 随机梯度下降 |
SISA | 分片、隔离、切片和聚合训练 |
TPR, FPR | 真阳性率,假阳性率 |
3 记忆
3.1 初步概念
- 应用于语言模型的记忆化的现有定义可以分为三个类别:映像记忆、曝光记忆和反事实记忆。
- 此外,还有两种不同的方法用于确定两个序列是否相同,一个来自训练数据,另一个由语言模型生成:
- 精确匹配:在精确匹配中,两个序列s1和s2(无论是单词、数字还是完整的论文)被认为是相同的,当且仅当它们完全匹配时。这是最直接和计算效率最高的方法。因此,几乎所有记忆化研究都采用了这种方法。
- 近似匹配:如果两个序列s1和s2的编辑距离在指定范围内,则被认为是相同的。虽然这个定义使用较少,但有充分的理由在未来研究中使用它(或其变体)。
3.2 影响记忆的因素
3.2.1 模型大小
- 影响记忆化的第一个重要因素是模型h的大小。
- 最近的研究表明,给定一个固定的训练数据集,模型的大小越大,记忆化的量越大。
- Carlini等人[2023a]使用了GPT-Neo系列的LLMs,并发现较大模型在对数线性尺度上记忆更多
- 即模型大小增加十倍对应记忆增加19%
- 这些结果在图2(a)中可以看到
- 即使在数据重复量和用来提示模型的令牌长度等其他因素变化时,这种效应也是一致的
-
Quantifying memorization across neural language models, 2023 Memorization without overfitting: Analyzing the training dynamics of large language models, 2022
- Tirumala等人[2022]发现,较大的模型不仅记忆训练数据的比例更大,而且记忆这些数据的速度也更快
- 也就是说,记忆化效应在相对较少的训练迭代后就显现出来
- Carlini等人[2023a]使用了GPT-Neo系列的LLMs,并发现较大模型在对数线性尺度上记忆更多
- Kandpal等人[2022]研究了Transformer模型的性能、模型大小和记忆化的影响
- 他们测量了来自Mistral项目(Stanford[2021])的117M和345M参数模型以及来自West(West等人[2021])的1.5B参数模型在OpenWebText(Gokaslan和Cohen[2019]