论文翻译 ACL-2023.Justus Mattern.Membership Inference Attacks against Language Models via Neighbourhood

Membership Inference Attacks against Language Models via Neighbourhood Comparison

https://arxiv.org/pdf/2305.18462

Mattern等人测试了目标序列和随机化序列之间的困惑度差异。来自:论文翻译:arxiv-2024 Training on the Benchmark Is Not All You Need

语言模型的成员推理攻击

摘要

成员推理攻击(MIAs)旨在预测一个数据样本是否出现在机器学习模型的训练数据中,它们被广泛用于评估语言模型的隐私风险。大多数现有的攻击依赖于这样一个观察:模型倾向于为训练样本分配比非训练点更高的概率。然而,简单地将模型得分作为阈值来孤立判断,往往会导致高误报率,因为它没有考虑到样本的内在复杂性。最近的工作已经证明,通过将模型得分与在类似数据上训练的参考模型获得的得分进行比较,基于参考的攻击可以显著提高MIAs的性能。然而,为了训练参考模型,这类攻击做出了一个强烈且可能不现实的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值