独家 | 这种新的数据投毒工具可以让艺术家反击生成式人工智能-CSDN博客

作者：Melissa Heikkilä

翻译：付雯欣
校对：赵茹萱


本文约2500字，建议阅读5分钟
工具名为 Nightshade，它会扰乱训练数据，从而可能对图像生成人工智能模型造成严重损害。

一种新工具可以让艺术家在将作品上传到网络上之前对其艺术作品中的像素添加隐形更改，这样一来，如果将其抓取到人工智能训练集中，可能会导致生成的模型以混乱且不可预测的方式崩溃。

该工具名为 Nightshade，旨在攻击人工智能公司在未经创作者许可的情况下使用艺术家的作品来训练模型的行为。通过把图像生成人工智能模型（如DALL-E、Midjourney 和 Stable Diffusion）的一些输出标签无效化——狗变成猫，汽车变成牛等等，它“毒害”这些训练数据，并可能会损害这些模型的未来迭代值。《麻省理工科技评论》（MIT Technology Review）获得了该研究的独家预览，该研究已提交计算机安全会议 Usenix 进行同行评审。

OpenAI、Meta、Google 和 Stability AI 等人工智能公司面临着来自艺术家的系列诉讼案件，这些艺术家声称他们的受版权保护的材料和个人信息在未经同意或补偿的情况下被窃取。Nightshade 创始团队的负责人，芝加哥大学教授Ben Zhao表示，希望它能够对不尊重艺术家版权和知识产权的行为产生强大的威慑，从而让权力天枰从人工智能公司这一端重新倾向艺术家。《麻省理工科技评论》要求Meta、Google、Stability AI 和 OpenAI针对他们将如何应对此事给出评论，他们没有回应。

Zhao的团队还开发了Glaze，这是一种允许艺术家“掩盖”自己个人风格的工具，以防止它们被人工智能公司窃取。它的工作方式与 Nightshade 类似：以人眼看不见的微妙方式改变图像的像素，但却让机器学习模型将图像解释为与实际显示的不同的东西。

该团队打算将 Nightshade 集成到 Glaze 中，艺术家可以选择是否要使用数据中毒工具。该团队还将 Nightshade 开源，允许其他人对其进行修改并制作自己的版本。Zhao说，使用它并制作自己版本的人越多，这个工具就会变得越强大。大型人工智能模型的数据集可能包含数十亿张图像，因此，模型中被毒害的图像越多，这个工具造成的损害就越大。

有针对性的攻击

Nightshade 利用了生成人工智能模型中的一个安全漏洞，该漏洞是由于它们接受了大量数据（这里是从互联网上获取的图像）进行训练而产生的。Nightshade 给这些图像施加了扰动。

想要在线上传作品，但又不希望自己的图像被人工智能公司收集的艺术家们可以将其上传到 Glaze，并选择用与自己不同的艺术风格来掩盖它，然后他们还可以选择使用Nightshade。一旦人工智能开发人员从互联网上收集更多数据来调整现有的人工智能模型或构建新的模型，这些有毒的样本就会进入模型的数据集并导致其故障。

有毒的数据样本可以操纵模型学习到错误的东西，例如，蛋糕图像的标签是帽子，烤面包机图像的标签是手袋。有毒数据很难被移除掉，因为它需要科技公司费尽心思地查找并删除每个损坏的样本。

研究人员在 Stable Diffusion 的最新模型和一个他们从头开始训练的 AI 模型上测试了攻击效果。当他们只向Stable Diffusion提供 50 个有毒的标签为狗的图像，然后提示它创建狗的图像时，它的输出开始看起来很奇怪——出现了有太多四肢和卡通面孔的生物。有了300 个有毒样本，攻击者就可以操纵Stable Diffusion生成看起来像猫的但输出标签为狗的图像。

（图片由研究人员提供）

生成式人工智能模型非常擅长在单词之间建立联系，这有助于毒性的传播。Nightshade不仅用毒性感染“狗”这个词，还感染所有类似的概念，例如“小狗”、“哈士奇”和“狼”。毒性攻击也适用于有关联的图像。例如，如果模型为标签“幻想艺术”抓取了一张有毒的图像，则标签“龙”和“《指环王》中的城堡”也会类似地被引导成其他东西。

（图片由研究人员提供）

Zhao承认数据投毒技术存在被恶意滥用的风险。不过，他表示，攻击者需要数千个有毒样本才能对更大、更强大的模型造成真正的损害，因为这些模型是在数十亿数据样本上进行训练的。

“我们还不知道有什么针对这些攻击的稳健的防御方法。我们也还没有在自然场景下看到对时兴的（机器学习）模型的投毒攻击，但这可能只是时间问题。”康奈尔大学研究人工智能模型安全性的教授 Vitaly Shmatikov 这样表示，不过他没有参与该研究。“现在到研究对应的防御方法的时候了，”他补充道。

滑铁卢大学助理教授Gautam Kamath研究人工智能模型中的数据隐私和稳健性，他没有参与这项研究，但他表示这项工作“非常棒”。

研究表明，这些新模型的漏洞“不会神奇地消失，事实上只会变得更加严重，” Kamath表示，“特别是随着这些模型变得更加强大，人们对它们更加信任的时候，因为随着时间的推移，风险只会增加。”

具有强大的威慑力

哥伦比亚大学计算机科学教授Junfeng Yang研究过深度学习系统的安全性，但没有参与这项工作，他表示，如果 Nightshade 能让人工智能公司更加尊重艺术家的权利，那么它可能会产生巨大的影响——例如，这些公司会更愿意支付版税。

开发了图像生成人工智能模型的人工智能公司（如 Stability AI 和 OpenAI）已经提出，艺术家可以选择不使用他们的图像来训练未来版本的模型，但艺术家们表示这还不够。使用过 Glaze 的插画家和艺术家Eva Toorenent 表示，这种选择退出政策要求艺术家克服重重困难，但仍将所有权力留给科技公司。

Toorenent 希望 Nightshade 能够改变现状。

“这会让（人工智能公司）三思而后行，因为他们有可能在未经我们同意的情况下拿走我们的工作成果，从而摧毁他们的整个模型，”她说。

另一位艺术家 Autumn Beverly 表示，Nightshade 和 Glaze 等工具让她有信心再次在网上发布自己的作品。之前，在发现它在未经她同意的情况下被收录进流行的 LAION 图像数据库后，她将其从互联网上删除了。

她说：“我真的很感激我们有一个工具可以帮助艺术家将权利归还给他们自己的作品。”

补充阅读：（按原文提到的顺序）

该研究的独家预览：

https://arxiv.org/abs/2310.13828

艺术家对人工智能公司提出诉讼：

https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

https://www.technologyreview.com/2022/08/31/1058800/what-does-gpt-3-know-about-me/

关于Glaze的介绍：

https://www.nytimes.com/2023/02/13/technology/ai-art-generator-lensa-stable-diffusion.html

https://www.technologyreview.com/2023/08/01/1077072/these-new-tools-could-help-protect-our-pictures-from-ai/

人工智能聊天机器人造成安全灾难的三种方式：

https://www.technologyreview.com/2023/04/03/1070893/three-ways-ai-chatbots-are-a-security-disaster/

艺术家可以选择不使用自己的图像作为未来模型的训练样本：

https://www.technologyreview.com/2022/12/16/1065247/artists-can-now-opt-out-of-the-next-version-of-stable-diffusion/

作者主页：

https://www.technologyreview.com/author/melissa-heikkila/

原文标题：

This new data poisoning tool lets artists fight back against generative AI

原文链接：

https://www.technologyreview.com/2023/10/23/1082189/data-poisoning-artists-fight-generative-ai/

编辑：于腾凯

校对：林亦霖

译者简介

付雯欣，中国人民大学统计学专业硕士研究生在读，数据科学道路上的探索者一枚。小时候梦想做数学家，现在依旧着迷于数据背后的世界。热爱阅读，热爱遛弯儿，不停感受打开生命大门的瞬间。欢迎大家和我一起用概率的视角看世界～

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织