论文笔记:PRIVACY ISSUES IN LARGE LANGUAGE MODELS: A SURVEY

1 intro

1.1 motivation

  • 2022年11月ChatGPT的推出引起了全球轰动,推动了人工智能研究、初创企业活动以及大型语言模型(LLM)的消费者采用。
  • 到2023年底,LLM的进展持续加速,但人们普遍认为,尽管LLM带来了变革性的经济效益,但它们也存在重大的社会风险。
    • 一派AI安全倡导者关注于发展超级智能的存在风险;如AI初创公司Anthropic在其关于AI安全的立场文件中指出,“如果我们构建了一个比人类专家更为能干的AI系统,但它追求与我们最佳利益相冲突的目标,后果可能非常严重。”
    • 另一派则认为,在目前的技术基础上构建超级智能系统的风险很小,但同时对现有或近期LLM的误用持严重担忧。
  • 这些担忧集中在当前一代语言模型的可靠性、有害内容、偏见、安全性和隐私性等问题上。

1.2 论文贡献

  • 论文重点关注隐私这一多方面的话题,包括模型是如何被开发、微调、部署及在训练后如何修改的
    • 前两节:回顾了揭示这些隐私风险的现有工作
    • 第三节:大型语言模型倾向于记忆其底层训练数据
    • 第四节:可以访问模型的隐私攻击暴露底层训练数据
    • 第五节:回顾了关于语言模型的DP训练和联合训练的现有工作
    • 第六节:缓解训练数据版权问题的早期算法工作
    • 第七节:回顾了从LLM中遗忘的早期工作

2 通用术语

2.1 数学符号

D

数据集。

包括分别用于训练和测试的Dtrain和Dtest。

A 训练算法,将Dtrain映射为h,即一种语言模型
h 由A(Dtrain)产生的语言模型
θ 模型h的参数
Z 隐私攻击
U 遗忘算法
s 一个序列、示例或单个字符串
损失函数
τ 阈值。通常在成员推断攻击的背景下使用
ϵ, δ 差分隐私参数

2.2 缩写概念

缩写 解释
AUC 曲线下面积
BERT 双向编码器表示从变换器
BLEU 双语评估替补
BPE 字节对编码
CRT 机密剔除训练
DP 差分隐私
DP-SGD 差分隐私随机梯度下降
GPT 生成预训练变换器
GPT-n, ChatGPT, ... 上述的变体
k-NAF k近接访问自由
KNN k最近邻居
LM 语言模型
LLM 大型语言模型
LOO 留一法
LSTM 长短期记忆网络
MIA 成员推断攻击
MLM 掩蔽语言模型
PHI 个人健康信息
PII 个人可识别信息
SGD 随机梯度下降
SISA 分片、隔离、切片和聚合训练
TPR, FPR 真阳性率,假阳性率

3 记忆

3.1 初步概念

  • 应用于语言模型的记忆化的现有定义可以分为三个类别:映像记忆、曝光记忆和反事实记忆。
  • 此外,还有两种不同的方法用于确定两个序列是否相同,一个来自训练数据,另一个由语言模型生成:
    • 精确匹配:在精确匹配中,两个序列s1和s2(无论是单词、数字还是完整的论文)被认为是相同的,当且仅当它们完全匹配时。这是最直接和计算效率最高的方法。因此,几乎所有记忆化研究都采用了这种方法。
    • 近似匹配:如果两个序列s1和s2的编辑距离在指定范围内,则被认为是相同的。虽然这个定义使用较少,但有充分的理由在未来研究中使用它(或其变体)。

3.2 影响记忆的因素

3.2.1 模型大小

  • 影响记忆化的第一个重要因素是模型h的大小。
  • 最近的研究表明,给定一个固定的训练数据集,模型的大小越大,记忆化的量越大。
    • Carlini等人[2023a]使用了GPT-Neo系列的LLMs,并发现较大模型在对数线性尺度上记忆更多
      • 即模型大小增加十倍对应记忆增加19%
      • 这些结果在图2(a)中可以看到
      • 即使在数据重复量和用来提示模型的令牌长度等其他因素变化时,这种效应也是一致的
      • Quantifying memorization across neural language models, 2023
        Memorization without overfitting: Analyzing the training dynamics of large language models, 2022

    • Tirumala等人[2022]发现,较大的模型不仅记忆训练数据的比例更大,而且记忆这些数据的速度也更快
      • 也就是说,记忆化效应在相对较少的训练迭代后就显现出来

  • Kandpal等人[2022]研究了Transformer模型的性能、模型大小和记忆化的影响
    • 他们测量了来自Mistral项目(Stanford[2021])的117M和345M参数模型以及来自West(West等人[2021])的1.5B参数模型在OpenWebText(Gokaslan和Cohen[2019]࿰
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值