LM水印概述
根据水印提取时所需条件,现有的语言模型(LM)水印方法主要有三种:
- 白盒水印:在神经网络的参数中嵌入水印,验证时通过检验模型的权重分布检验水印的存在。
- 黑盒水印:通过后门植入的方法在神经网络的参数中嵌入水印,验证时通过比对模型输出与触发集标签的一致性检验水印的存在。
- 无盒水印:在模型的输出文本中嵌入水印,验证时通过对模型输出文本携带的水印信号进行检测检验水印的存在。
其中,白盒水印提取时需要掌握模型的参数信息,黑盒水印和无盒水印提取时只需要获取模型的API即可。
此外,LM无盒水印与自然语言文本水印这两个领域有共通之处,二者多是基于修改式文本隐写的方式嵌入水印,也有一些无盒水印基于生成式文本隐写的方式嵌入水印。关于「生成式文本隐写」相关的综述,参见此篇文章:论文研读|生成式文本隐写发展综述
白盒水印
目前比较典型的保护LM模型白盒水印的文章如下,其中前两个工作出自 Universiti Malaya 的Chee Seng Chan团队,第三个工作出自上海大学的吴汉舟团队。
- 2021 PR|Protect, show, attend and tell: Empowering image captioning models with ownership protection(Universiti Malaya)
第一篇保护图像描述生成模型的文章,使用白盒水印的方式,将水印信号嵌入到LSTM模型的hidden state 中。 - 2022 AACL|An Embarrassingly Simple Approach for Intellectual Property Rights Protection on RNNs(Universiti Malaya)
提出保护RNN模型的方法GateKeeper,借助RNN模型的门限控制单元嵌入水印信号。 - 2023 Symmetry|An Effective Framework for Intellectual Property Protection of NLG Models(上海大学)
对第一篇工作的小幅度改进。
上述工作均属于Zero-bit 水印的范畴,只能判断水印信号的存在,却没有建立起模型所有者与水印信号之间的关系。
黑盒水印
截至2023年10月,已发表的工作中有5篇LM黑盒水印相关的文章,这些文章的不同之处主要在于触发集的构造方式上。黑盒水印的保护模型可以是文本分类模型
[
1
,
2
]
^{[1,2]}
[1,2]、预训练语言模型
[
3
]
^{[3]}
[3](PLM)、Embedding
[
4
]
^{[4]}
[4]……
- 2021|Robust Black-box Watermarking for Deep Neural Network using Inverse Document Frequency(University of New Brunswick)
- 2022 DSD|TextBack: Watermarking Text Classifiers using Backdooring(Nanyang Technological University Singapore)
- 2023 AAAI|PLMmark: A Secure and Robust Black-Box Watermarking Framework for Pre-trained Language Models(上海交通大学)
- 2023 ACL|Are You Copying My Model? Protecting the Copyright of Large Language Models for EaaS via Backdoor Watermark(中国科技大学)
- 2023 TrustNLP|GPTs Don’t Keep Secrets: Searching for Backdoor Watermark Triggers in Autoregressive LMs(Michigan Technological University)
上述工作中,[1,2,3,4] 均在文本分类模型上进行实验,均属于Zero-bit水印的范畴。工作[5]反其道而行之,通过实验验证了向自回归语言模型中嵌入黑盒水印信号的困难性(误触发率高)。PLMmark[3]通过单向散列函数建立了模型所有者与触发集之间的关系。
无盒水印
无盒水印多是用来保护 LM 的API,如Google Translator、Bing Translator。
- 2011 EMNLP|Watermarking the Outputs of Structured Prediction with an application in SMT task(Google)
本文提出一种保护统计机器翻译模型的无盒水印方法,能有效抵抗局部编辑操作攻击。 - 2022 AAAI|Protecting Intellectual Property of Language Generation APIs with Lexical Watermark(Monash University)
本文通过对模型api生成的内容进行语义保留的修改,在保护模型原始性能的同时借助假设检验判断水印的存在。 - 2022 EMNLP-F|Distillation-Resistant Watermarking for Model Protection in NLP(UCSB)
- 2022 NIPS|CATER- Intellectual Property Protection on Text Generation APIs via Conditional Watermarks(University College London)
本文提出一种保护语言模型API的无盒水印方法,能够在保证水印添加前后词汇分布接近的同时,有效验证水印的存在,且本文提出方法能有效抵抗模型窃取攻击。 - 2023 ICML|A Watermark for Large Language Models(University of Maryland)
本文通过改变生成文本的分布嵌入水印:将第t-1个时间步的单词作为随机种子辅助生成当前单词,侧重于在水印词表中选择单词。水印提取时使用基于p值统计测试的检测算法验证水印的存在。 - 2023 ICML|Protecting Language Generation Models via Invisible Watermarking(UCSB)
- 2023 ICML-W Provable Robust Watermarking for AI-Generated Text(UCSB)
- 2023 NeuroComputing|A novel watermarking framework for intellectual property protection of NLG APIs(上海大学)
对工作[2]的小幅度改进。 - 2023 NLPCC|COSYWA: Enhancing Semantic Integrity in Watermarking Natural Language Generation(厦门大学)
本文提出一种基于掩码语言模型的无盒水印嵌入方法,使用掩码语言模型选择替换词集,实现水印嵌入前后的语义一致性。
上述方法中,[1,2,3,4,6,8,9]都是通过对生成模型的输出文本进行二次处理得到含水印文本,[5,7]是在模型生成阶段有倾向性地生成水印词汇得到含水印文本。上述方法都是通过假设检验对水印进行验证。工作[1]的替换对象是候选句,而[2,3,4,6,8,9]的替换对象是指定词性的词汇。上述工作均属于Zero-bit水印的范畴。
水印特性
隐蔽性
迁移性
鲁棒性
剪枝
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数网络安全工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年网络安全全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上网络安全知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注网络安全获取)
学习路线:
这个方向初期比较容易入门一些,掌握一些基本技术,拿起各种现成的工具就可以开黑了。不过,要想从脚本小子变成黑客大神,这个方向越往后,需要学习和掌握的东西就会越来越多以下是网络渗透需要学习的内容:
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
ttps://img-blog.csdnimg.cn/7a04c5d629f1415a9e35662316578e07.png#pic_center)
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
[外链图片转存中…(img-i01Hp9wd-1712908695375)]