Membership Inference Attacks against Language Models via Neighbourhood Comparison
https://arxiv.org/pdf/2305.18462
Mattern等人测试了目标序列和随机化序列之间的困惑度差异。来自:论文翻译:arxiv-2024 Training on the Benchmark Is Not All You Need
语言模型的成员推理攻击
文章目录
摘要
成员推理攻击(MIAs)旨在预测一个数据样本是否出现在机器学习模型的训练数据中,它们被广泛用于评估语言模型的隐私风险。大多数现有的攻击依赖于这样一个观察:模型倾向于为训练样本分配比非训练点更高的概率。然而,简单地将模型得分作为阈值来孤立判断,往往会导致高误报率,因为它没有考虑到样本的内在复杂性。最近的工作已经证明,通过将模型得分与在类似数据上训练的参考模型获得的得分进行比较,基于参考的攻击可以显著提高MIAs的性能。然而,为了训练参考模型,这类攻击做出了一个强烈且可能不现实的