NeurIPS 2022 | CATER：针对模型窃取的版权保护之选择性水印

最新推荐文章于 2024-03-12 13:21:59 发布

PaperWeekly

最新推荐文章于 2024-03-12 13:21:59 发布

阅读量1.4k

点赞数

文章标签：机器学习人工智能深度学习 python 算法

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/127218762

版权

©PaperWeekly 原创 · 作者 | 何玄黎

单位 | 伦敦大学学院（UCL）

研究方向 | 自然语言处理

论文标题：

CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks

收录会议：

NeurIPS 2022

论文链接：

https://arxiv.org/abs/2209.08773

代码链接：

https://github.com/xlhex/cater_neurips

研究背景

模型窃取（imitation attack）旨在窃取远程 APIs，并将其本地化。一旦模型本地化以后，模型窃取者即可免费使用该模型，无需继续支付相关服务费，亦或者将窃取的模型作为低价且高性能的 APIs 发布，进而快速占领相关市场。早期对于模型窃取的研究主要停留在实验室假设，研究者们通过模拟实验验证了模型窃取的可行性。近年来，研究者们（Wallace et al. 2020, Xu et al. 2022）发现模型窃取不仅局限在模拟实验场景，同时能成功窃取商用 APIs 的性能，并且在特定的场景下，仿制模型（imitation model）可以远超远程 APIs 的性能（Xu et al. 2022）。

尽管目前模型窃取的危害已经得到了广泛研究，但是如何有效地保护受害模型免受模型窃取攻击，依然是一个尚未解决的问题，尤其是在文本生成的任务里。相较于分类任务，文本任务的输出必须是一串语义语法合规的文字，因此分类问题中通过改变各个类别分布的保护措施在此处并不适用。此外，研究者们提出在返回模型结果的过程中，对于部分数据，返回错误的预测，以此实现后门注入。

如若一个被怀疑的模型对于后门数据的预测和此前错误预测一致，则可认为此模型大概率是通过模型窃取所得。不过，此后门注入的方法存在着三个缺陷。

第一，为实现后门检测，受害模型需要存储大量后门数据。考虑到常见的商业 API 通常每秒至少需要提供上百万次服务，后门数据的存储必将极大增加 API 提供者的成本。第二，被怀疑模型使用过的数据对于受害模型是未知，因此受害模型需要检测所有的后门数据。该检测过程也会增加受害模型的防御成本。若被怀疑模型采取收费模式，检测成本亦会随之上升。第三，受害模型通过提供可靠且高性能的服务从而实现盈利。若受害模型的输出存在错误预测，可能会降低用户的满意度，从而导致用户流失，进而影响市场竞争力。

基于此，He et al. 2022 提出采用基于词法的水印技术来保护受害模型的版权。该水印技术可以有效验证被怀疑的文本生成模型是否为窃取所得，并且尽最大限度保证受害模型的服务质量，同时无需存储任何来自用户的数据。但是，笔者发现，此方法可以通过逆向工程破解，从而导致水印失效。具体而言，笔者通过对比加过水印的数据和正常数据上的词频分布，即可发现水印。如图 1 所示，因为水印词和原词的词频在水印数据和正常数据存在巨大差异，只需将这些

最低0.47元/天解锁文章

PaperWeekly

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
NeurIPS 2022 | CATER：针对模型窃取的版权保护之选择性水印

©PaperWeekly 原创 ·作者 |何玄黎单位 |伦敦大学学院（UCL）研究方向 |自然语言处理论文标题：CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks收录会议：NeurIPS 2022论文链接：https://arxiv.org/abs/2209.0...
复制链接

扫一扫