论文翻译: arxiv-2024.Avi Schwarzschild.Rethinking LLM Memorization through the Lens of Adversarial Compr

CSPhD-winston-杨帆

已于 2024-11-15 20:19:50 修改

阅读量689

点赞数 7

分类专栏： LLMs-数据污染论文翻译文章标签：人工智能

于 2024-11-14 09:28:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WhiffeYF/article/details/143757817

版权

论文翻译同时被 2 个专栏收录

114 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

LLMs-数据污染

61 篇文章

订阅专栏

https://arxiv.org/pdf/2404.15146

Rethinking LLM Memorization through the Lens of Adversarial Compression

通过对抗性压缩的视角重新思考大型语言模型的记忆

摘要

在网络规模数据集上训练的大型语言模型（LLMs）引发了关于允许数据使用的实质性关注。一个主要问题是这些模型是否“记忆”了它们所有的训练数据，或者它们是否以更类似于人类学习并综合信息的方式来整合许多数据源。答案在很大程度上取决于我们如何定义记忆。在这项工作中，我们提出了对抗性压缩比（ACR）作为评估LLMs记忆中的一个指标。如果训练数据中的一个给定字符串可以通过比字符串本身短得多的提示来引发，那么它就被认为是记忆的——换句话说，如果这些字符串可以通过计算较少的令牌的对抗性提示与模型“压缩”。ACR克服了现有记忆概念的局限性，因为它（i）提供了一个对抗性的视角来衡量记忆，特别是用于监控未学习和合规性；以及（ii）允许灵活性，以在合理的计算成本下测量任意字符串的记忆。我们的定义作为一个实用工具，用于确定模型所有者何时可能违反有关数据使用条款，提供了一个潜在的法律工具和一个关键的视角，通过它来解决这类情景

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CSPhD-winston-杨帆 给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。