本文是LLM系列文章,针对《Poisoning Web-Scale Training Datasets is Practical》的翻译。
中毒网络规模训练数据集是实用的
摘要
深度学习模型通常在从互联网抓取的分布式网络规模数据集上进行训练。在本文中,我们介绍了两种新的数据集中毒攻击,它们故意将恶意示例引入模型的性能。我们的攻击立即变得切实可行,今天可能会毒害10个流行的数据集。我们的第一个攻击是分裂视图中毒,它利用互联网内容的可变性来确保数据集注释器对数据集的初始视图与后续客户端下载的视图不同。通过利用特定的无效信任假设,我们展示了如何以60美元的价格毒害0.01%的LAION-400M或COYO-700M数据集。我们的第二次攻击是前端中毒,针对的是定期快照众包内容的网络规模数据集,如维基百科,攻击者只需要一个有时间限制的窗口来注入恶意示例。鉴于这两种攻击,我们通知了每个受影响数据集的维护人员,并推荐了几种低开销的防御措施。
1 引言
2 背景和相关工作
3 威胁模型和攻击场景
4 拆分视图数据中毒
5 正面中毒
6 防御
7 结论
我们的论文表明,网络规模的数据集容易受到当今可能发生的低成本和极其实用的中毒攻击。即使攻击者只能针对一小部分精心策划的数据集,这也是正确的,破坏0.01%的示例就足以毒害模型。那些发布和维护数据集的人应该考虑我们引入的防御措施——包括完整性检查和随机或时间门控快照——或替代的、特定于应用程序的防御措施。根据我们的研究结果,我们认为机器学习研究人员必须重新评估他们在网络规模数据中的信任假设,并开始探索不假设单一信任根的解决方案。我们的研究结果还揭示了攻击研究的各种未来方向:攻击者只能编辑原始内容而不能编辑标签等辅助数据的威胁模型;评估拟议攻击的实际成本;以及评估更宽松但潜在脆弱的近乎重复的完整性检查的有效性。因此,我们的工作只是社区更好地了解从网络规模数据生成模型所涉及的风险的一个起点。