https://arxiv.org/pdf/2404.15146
Rethinking LLM Memorization through the Lens of Adversarial Compression
通过对抗性压缩的视角重新思考大型语言模型的记忆
摘要
在网络规模数据集上训练的大型语言模型(LLMs)引发了关于允许数据使用的实质性关注。一个主要问题是这些模型是否“记忆”了它们所有的训练数据,或者它们是否以更类似于人类学习并综合信息的方式来整合许多数据源。答案在很大程度上取决于我们如何定义记忆。在这项工作中,我们提出了对抗性压缩比(ACR)作为评估LLMs记忆中的一个指标。如果训练数据中的一个给定字符串可以通过比字符串本身短得多的提示来引发,那么它就被认为是记忆的——换句话说,如果这些字符串可以通过计算较少的令牌的对抗性提示与模型“压缩”。ACR克服了现有记忆概念的局限性,因为它(i)提供了一个对抗性的视角来衡量记忆,特别是用于监控未学习和合规性;以及(ii)允许灵活性,以在合理的计算成本下测量任意字符串的记忆。我们的定义作为一个实用工具,用于确定模型所有者何时可能违反有关数据使用条款,提供了一个潜在的法律工具和一个关键的视角,通过它来解决这类情景