论文研读｜PLMmark: A Secure and Robust Black-Box Watermarking Framework for Pre-trained Language Models

_Meilinger_

于 2023-10-19 20:40:26 发布

阅读量400

点赞数

分类专栏：论文研读神经网络水印文章标签：语言模型 AI安全网络空间安全神经网络水印语言模型水印模型水印黑盒水印

本文链接：https://blog.csdn.net/qq_36332660/article/details/133929482

版权

论文研读同时被 2 个专栏收录

37 篇文章 9 订阅

订阅专栏

神经网络水印

18 篇文章 6 订阅

订阅专栏

在这里插入图片描述

论文信息

论文名称：PLMmark: A Secure and Robust Black-Box Watermarking Framework for Pre-trained Language Models
作者：Peixuan Li, et al. Shanghai Jiaotong University
发表年份：2023
发表会议：AAAI
开源代码：无

文章简介

本文提出一种基于单向散列函数和对比学习保护预训练语言模型的黑盒水印方法，通过构造触发集，设计损失函数，使得触发样本的输出特征向量与正常样本的输出特征向量不同，水印的保真度与有效性较高，同时能够有效抵抗剪枝与伪造攻击。

研究动机

现有的模型水印工作大多围绕CV领域展开，另有一些针对语言模型开展后门攻击的相关研究，而保护语言模型的水印工作很少，现有一些研究方法 (Yadollahi et al. 2021; He et al. 2022) 基于黑盒或无盒的方式，但由于模型所有者与水印之间缺乏必要的关联性，它们均无法抵抗伪造攻击，这种情形对于黑盒水印来说尤为严重。针对这一问题，(Guo and Potkonjak 2018; Li et al. 2019; Zhu et al. 2020; Li and Wang 2021) 提出使用数字签名和哈希函数的方式，将模型所有者与触发集进行关联，起到了不错的效果。然而，对于预训练语言模型的保护问题，目前仍没有一个比较不错的解决办法。基于此，本文提出一种鲁棒安全的保护预训练语言模型的黑盒水印方法。

研究方法

应用场景

假设模型所有者 $O$ 训练了一个 PLM $f$ 并将其投入市场盈利。购买 $f$ 使用许可证的用户将 $f$ 下载之后，将其与分类头 $g$ 拼接，得到最终模型 $F$ ，通过微调的方式将 $F$ 适配特定的下游任务。然而，还有一些用户非法窃取到 $f$ 使用，严重危害了模型所有者 $O$ 的利益，因此，本文提出一种方法，保护 $O$ 对于模型 $f$ 的版权，方法框架图如下。

在这里插入图片描述

水印生成

这一阶段主要是构建含有模型所有者信息的触发词集，主要分为两步：（1） $sig = Sign(m, O_{pri})$ 模型所有者提供含有所有者身份信息的消息 $m$ 以及私钥 $O_{pri}$ ,基于这两个参数运行 $Sign(\cdot)$ 函数生成模型所有者的数字签名 $s i g$ ；（2） $t = E n co d e (s i g, n)$ 模型所有者使用 $s i g$ 构建一个大小为 $n$ 的触发词集，首先使用 $s i g$ 构建一个单向散列函数，这个函数中的每个哈希值会映射到词表中的一个单词，这些单词即为含水印信号的触发单词 triggers $，其中$ n$为触发词的个数。具体流程如 Algorithm 1 所示。

在这里插入图片描述

得到触发词集之后，选定一定数量的干净样本，对每个干净样本随机选择位置 $p$ 向其中混入 $k$ 个触发词，得到触发样本。

本文将RSA公钥加密算法作为Sign()函数，将SHA256作为Hash()函数。

水印嵌入

使用干净训练数据和触发集共同训练PLM，本文设计了两个损失保证水印的有效性和保真度。

对比学习损失

我们知道PLM一般是通过无监督的方式训练，也就是 task- agnostic，但由于我们要使用有监督的对比学习来对不同性质的样本进行区分，这就涉及到样本标签的构造问题。需要注意的是，我们不仅要区分干净样本与触发样本的特征，而且要区分含有不同触发词的样本的特征（这里要求每个触发样本只含有一个触发词）。本文设计了一个比较巧妙的标签构造方式：将干净样本的标签设为 0，触发样本的标签设置为相应触发词的索引值，这样就保证了不同特性的样本之间的可区分性。

在这里插入图片描述
由 Figure 4可以看出，使用对比学习之后的模型能够有效区分出干净样本特征与触发样本特征之间的差异以及不同触发样本特征之间的差异。

原始精度损失

与此同时，我们还要保证添加水印后的模型与原始模型输出的特征向量尽可能接近，以确保模型在下游任务上的性能尽可能相似。于是，第二个损失函数就是这两个模型输出的特征向量的MSE损失。

在这里插入图片描述

使用上述方法训练模型后得到含水印的PLM模型 $f_{WMK}$ ，模型所有者将 $f_{WMK}$ 公布并以此盈利。

版权验证

本文采用两阶段版权验证方式：

（1）验证申请者的身份：当模型所有者 $O$ 怀疑某模型 $F_{susp}$ 是由 $f_{WMK}$ 非法构建的， $O$ 便要作为申请者，首先将他手中的身份认证信息 $m$ 、公钥 $O_{pub}$ 以及数字签名 $s i g$ 连同触发集构造函数 $\mathbf (\cdot, \cdot, p, k)I$ 一并送入可信第三方A处验证申请者身份。

（2）若申请者为模型所有者，则进一步验证待检测模型是否含有水印。完整流程见 Algorithm 2.

在这里插入图片描述

实验结果

数据集：5个二分类&多分类数据集
在这里插入图片描述
Baselines：NeuBA (Zhang et al. 2021) and POR (Shen et al. 2021) 两种语言模型的后门攻击方法

NeuBA-HF：https://huggingface.co/thunlp/neuba-bert
POR-HF：https://huggingface.co/Lujia/backdoored bert

保真度&有效性

在这里插入图片描述

误警率

Table 3表明，使用错误数字签名的含水印模型以及使用数字签名对不含水印模型提取水印都无法得到模型版权的有效验证。这一定程度上防止了伪造攻击。
在这里插入图片描述

鲁棒性

抗剪枝攻击（Fine-Pruning）

从 Figure 2可以看到，即使裁剪掉80%的神经元，使用PLMmark方式构造的水印有效性依然能够保证在较高的范围内，同时模型在原始任务上的性能在可接受的范围内。
在这里插入图片描述

抗重初始化攻击（Re-Initializing）

在这里插入图片描述

安全性

抗伪造攻击（Forgery Attack）

攻击者如果想要伪造这个水印，可以从两个方面入手：（1）伪造数字签名 $s i g^{'}$ ，但 Table 3 证实了错误的数字签名无法有效提取水印；（2）通过枚举方式，找到 $n$ 个触发词，然后逆向推断出 $n$ 个哈希值，但攻击者需要保证这些哈希值对应的触发词索引与 $f_{WMK}$ 中词表的映射函数保持一致，同时还需保证数字签名映射出的第一个哈希值的正确性，但由于单向散列函数的单向性，上述情况不会发生，从而攻击者无法成功伪造所有者身份。

消融实验

本实验测试了触发样本中的触发词个数对水印有效性的影响。结果也比较合理，触发词数量越多，水印有效性普遍越大。
在这里插入图片描述

方法评估

这篇文章立意明确，想法新颖，使用黑盒水印保护预训练语言模型，给人眼前一亮的感觉。前人的研究基础主要有三个，一是 One-way Hash Chain，二是 Contrastive Learning，三是保真度损失约束。本文将这三个点进行了融合。此外，触发样本的水印标签设置我觉得也很巧妙，个人认为是一篇不错的文章。

相关文献

Guo, J.; and Potkonjak, M. 2018. Watermarking deep neural networks for embedded systems. In Bahar, I., ed., Proceedings of the International Conference on Computer-Aided Design, ICCAD 2018, San Diego, CA, USA, November 05-08, 2018, 133. ACM.

He, X.; Xu, Q.; Lyu, L.; Wu, F.; and Wang, C. Protecting Intellectual Property of Language Generation APIs with Lexical Watermark. AAAI, 2022.

Khosla, P.; Teterwak, P.; Wang, C.; Sarna, A.; Tian, Y.; Isola, P.; Maschinot, A.; Liu, C.; and Krishnan, D. Supervised Contrastive Learning. In Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.; and Lin, H., eds., Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual.

Shen, L.; Ji, S.; Zhang, X.; Li, J.; Chen, J.; Shi, J.; Fang, C.; Yin, J.; and Wang, T. 2021. Backdoor Pre-trained Models Can Transfer to All. In Kim, Y.; Kim, J.; Vigna, G.; and Shi, E., eds., CCS ’21: 2021 ACM SIGSAC Conference on Computer and Communications Security, Virtual Event, Republic of Korea, November 15 - 19, 2021, 3141–3158. ACM.

Yadollahi, M. M.; Shoeleh, F.; Dadkhah, S.; and Ghorbani, A. A. 2021. Robust Black-box Watermarking for Deep Neural Network using Inverse Document Frequency. In IEEE Intl Conf on Dependable, Autonomic and Secure Computing, Intl Conf on Pervasive Intelligence and Computing, Intl Conf on Cloud and Big Data Computing, Intl Conf on Cyber Science and Technology Congress, DASC/PiCom/CBDCom/CyberSciTech 2021, Canada, October 25-28, 2021, 574–581. IEEE.

Zhang, Z.; Xiao, G.; Li, Y.; Lv, T.; Qi, F.; Liu, Z.; Wang, Y.; Jiang, X.; and Sun, M. Red Alarm for Pre-trained Models: Universal Vulnerability to Neuron-Level Backdoor Attacks. ICML Workshops, 2021.

Zhu, R.; Zhang, X.; Shi, M.; and Tang, Z. 2020. Secure neural network watermarking protocol against forging attack. EURASIP Journal on Image and Video Processing, 2020(1): 1–12.

_Meilinger_

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文研读｜PLMmark: A Secure and Robust Black-Box Watermarking Framework for Pre-trained Language Models

本文提出一种基于单向散列函数和对比学习保护预训练语言模型的黑盒水印方法，通过构造触发集，设计损失函数，使得触发样本的输出特征向量与正常样本的输出特征向量不同，水印的保真度与有效性较高，同时能够有效抵抗剪枝与伪造攻击。
复制链接

扫一扫