前言:前段时间一直在看LM模型水印相关的论文,下面对该领域的研究现状进行一个简要的总结。
对于不了解模型水印的同学,建议先看一下此篇博客:文献综述|CV领域神经网络水印发展综述
以下是个人总结的一些 Survey of X-Watermarks,欢迎 star ✨~
自然语言文本水印:https://github.com/meiling-fdu/Text-Watermark
语言模型水印:https://github.com/meiling-fdu/LM-Watermark
视觉模型水印:https://github.com/meiling-fdu/CV-Watermark
LM水印概述
根据水印提取时所需条件,现有的语言模型(LM)水印方法主要有三种:
- 白盒水印:在神经网络的参数中嵌入水印,验证时通过检验模型的权重分布检验水印的存在。
- 黑盒水印:通过后门植入的方法在神经网络的参数中嵌入水印,验证时通过比对模型输出与触发集标签的一致性检验水印的存在。
- 无盒水印:在模型的输出文本中嵌入水印,验证时通过对模型输出文本携带的水印信号进行检测检验水印的存在。
其中,白盒水印提取时需要掌握模型的参数信息,黑盒水印和无盒水印提取时只需要获取模型的API即可。
此外,LM无盒水印与自然语言文本水印这两个领域有共通之处,二者多是基于修改式文本隐写的方式嵌入水印,也有一些无盒水印基于生成式文本隐写的方式嵌入水印。关于「生成式文本隐写」相关的综述,参见此篇文章:论文研读|生成式文本隐写发展综述
白盒水印
目前比较典型的保护LM模型白盒水印的文章如下,其中前两个工作出自 Universiti Malaya 的Chee Seng Chan团队,第三个工作出自上海大学的吴汉舟团队。
- 2021 PR|Protect, show, attend and tell: Empowering image captioning models with ownership protection(Universiti Malaya)
第一篇保护图像描述生成模型的文章,使用白盒水印的方式,将水印信号嵌入到LSTM模型的hidden state 中。 - 2022 AACL|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs(Universiti Malaya)
提出保护RNN模型的方法GateKeeper,借助RNN模型的门限控制单元嵌入水印信号。 - 2023 Symmetry|An Effective Framework for Intellectual Property Protection of NLG Models(上海大学)
对第一篇工作的小幅度改进。
上述工作均属于Zero-bit 水印的范畴,只能判断水印信号的存在,却没有建立起模型所有者与水印信号之间的关系。
黑盒水印
截至2023年10月,已发表的工作中有5篇LM黑盒水印相关的文章,这些文章的不同之处主要在于触发集的构造方式上。黑盒水印的保护模型可以是文本分类模型 [ 1 , 2 ] ^{[1,2]} [1,2]、预训练语言模型 [ 3 ] ^{[3]} [3](PLM)、Embedding [ 4 ] ^{[4]} [4]……
-
2021|Robust Black-box Watermarking for Deep Neural Network using Inverse Document Frequency(University of New Brunswick)
-
2022 DSD|TextBack: Watermarking Text Classifiers using Backdooring(Nanyang Technological University Singapore)
-
2023 TrustNLP|GPTs Don’t Keep Secrets: Searching for Backdoor Watermark Triggers in Autoregressive LMs(Michigan Technological University)
上述工作中,[1,2,3,4] 均在文本分类模型上进行实验,均属于Zero-bit水印的范畴。工作[5]反其道而行之,通过实验验证了向自回归语言模型中嵌入黑盒水印信号的困难性(误触发率高)。PLMmark[3]通过单向散列函数建立了模型所有者与触发集之间的关系。
无盒水印
无盒水印多是用来保护 LM 的API,如Google Translator、Bing Translator。
- 2011 EMNLP|Watermarking the Outputs of Structured Prediction with an application in SMT task(Google)
本文提出一种保护统计机器翻译模型的无盒水印方法,能有效抵抗局部编辑操作攻击。 - 2022 AAAI|Protecting Intellectual Property of Language Generation APIs with Lexical Watermark(Monash University)
本文通过对模型api生成的内容进行语义保留的修改,在保护模型原始性能的同时借助假设检验判断水印的存在。 - 2022 EMNLP-F|Distillation-Resistant Watermarking for Model Protection in NLP(UCSB)
- 2022 NIPS|CATER- Intellectual Property Protection on Text Generation APIs via Conditional Watermarks(University College London)
本文提出一种保护语言模型API的无盒水印方法,能够在保证水印添加前后词汇分布接近的同时,有效验证水印的存在,且本文提出方法能有效抵抗模型窃取攻击。 - 2023 ICML|A Watermark for Large Language Models(University of Maryland)
本文通过改变生成文本的分布嵌入水印:将第t-1个时间步的单词作为随机种子辅助生成当前单词,侧重于在水印词表中选择单词。水印提取时使用基于p值统计测试的检测算法验证水印的存在。 - 2023 ICML|Protecting Language Generation Models via Invisible Watermarking(UCSB)
- 2023 ICML-W Provable Robust Watermarking for AI-Generated Text(UCSB)
- 2023 NeuroComputing|A novel watermarking framework for intellectual property protection of NLG APIs(上海大学)
对工作[2]的小幅度改进。 - 2023 NLPCC|COSYWA: Enhancing Semantic Integrity in Watermarking Natural Language Generation(厦门大学)
本文提出一种基于掩码语言模型的无盒水印嵌入方法,使用掩码语言模型选择替换词集,实现水印嵌入前后的语义一致性。
上述方法中,[1,2,3,4,6,8,9]都是通过对生成模型的输出文本进行二次处理得到含水印文本,[5,7]是在模型生成阶段有倾向性地生成水印词汇得到含水印文本。上述方法都是通过假设检验对水印进行验证。工作[1]的替换对象是候选句,而[2,3,4,6,8,9]的替换对象是指定词性的词汇。上述工作均属于Zero-bit水印的范畴。
水印特性
隐蔽性
迁移性
鲁棒性
剪枝
微调
安全性
一般会从如下几个方面衡量水印的鲁棒性和安全性。
伪造攻击
局部修改攻击
这一攻击对无盒水印影响比较大,因为对输出文本进行局部修改可能会破坏水印词汇的分布。
模型窃取攻击
这个攻击对于生成式语言模型来说应该是影响比较恶劣的一种攻击,这意味着攻击者盗取了模型的功能,却没有向模型所有者提供报酬或应有的代价。
整个十月掐头去尾,都奉献给模型水印了🤔
参考文献

4万+

被折叠的 条评论
为什么被折叠?



