论文研读|PLMmark: A Secure and Robust Black-Box Watermarking Framework for Pre-trained Language Models

在这里插入图片描述


论文信息

论文名称:PLMmark: A Secure and Robust Black-Box Watermarking Framework for Pre-trained Language Models
作者:Peixuan Li, et al. Shanghai Jiaotong University
发表年份:2023
发表会议:AAAI
开源代码:无

文章简介

本文提出一种基于单向散列函数和对比学习保护预训练语言模型的黑盒水印方法,通过构造触发集,设计损失函数,使得触发样本的输出特征向量与正常样本的输出特征向量不同,水印的保真度与有效性较高,同时能够有效抵抗剪枝与伪造攻击。

研究动机

现有的模型水印工作大多围绕CV领域展开,另有一些针对语言模型开展后门攻击的相关研究,而保护语言模型的水印工作很少,现有一些研究方法 (Yadollahi et al. 2021; He et al. 2022) 基于黑盒或无盒的方式,但由于模型所有者与水印之间缺乏必要的关联性,它们均无法抵抗伪造攻击,这种情形对于黑盒水印来说尤为严重。针对这一问题,(Guo and Potkonjak 2018; Li et al. 2019; Zhu et al. 2020; Li and Wang 2021) 提出使用数字签名和哈希函数的方式,将模型所有者与触发集进行关联,起到了不错的效果。然而,对于预训练语言模型的保护问题,目前仍没有一个比较不错的解决办法。基于此,本文提出一种鲁棒安全的保护预训练语言模型的黑盒水印方法。

研究方法

应用场景

假设模型所有者 O O O 训练了一个 PLM f f f 并将其投入市场盈利。购买 f f f 使用许可证的用户将 f f f 下载之后,将其与分类头 g g g 拼接,得到最终模型 F F F,通过微调的方式将 F F F适配特定的下游任务。然而,还有一些用户非法窃取到 f f f 使用,严重危害了模型所有者 O O O 的利益,因此,本文提出一种方法,保护 O O O 对于模型 f f f 的版权,方法框架图如下。

在这里插入图片描述

水印生成

这一阶段主要是构建含有模型所有者信息的触发词集,主要分为两步:(1) s i g = S i g n ( m , O p r i ) sig = Sign(m, O_{pri}) sig=Sign(m,Opri) 模型所有者提供含有所有者身份信息的消息 m m m以及私钥 O p r i O_{pri} Opri,基于这两个参数运行 S i g n ( ⋅ ) Sign(\cdot) Sign() 函数生成模型所有者的数字签名 s i g sig sig;(2) t = E n c o d e ( s i g , n ) t = Encode(sig, n) t=Encode(sig,n) 模型所有者使用 s i g sig sig 构建一个大小为 n n n 的触发词集,首先使用 s i g sig sig 构建一个单向散列函数,这个函数中的每个哈希值会映射到词表中的一个单词,这些单词即为含水印信号的触发单词 triggers ,其中 ,其中 ,其中n$为触发词的个数。具体流程如 Algorithm 1 所示。

在这里插入图片描述

得到触发词集之后,选定一定数量的干净样本,对每个干净样本随机选择位置 p p p向其中混入 k k k个触发词,得到触发样本。

本文将RSA公钥加密算法作为Sign()函数,将SHA256作为Hash()函数。

水印嵌入

使用干净训练数据和触发集共同训练PLM,本文设计了两个损失保证水印的有效性和保真度。

对比学习损失

我们知道PLM一般是通过无监督的方式训练,也就是 task- agnostic,但由于我们要使用有监督的对比学习来对不同性质的样本进行区分,这就涉及到样本标签的构造问题。需要注意的是,我们不仅要区分干净样本与触发样本的特征,而且要区分含有不同触发词的样本的特征(这里要求每个触发样本只含有一个触发词)。本文设计了一个比较巧妙的标签构造方式:将干净样本的标签设为 0,触发样本的标签设置为相应触发词的索引值,这样就保证了不同特性的样本之间的可区分性。

在这里插入图片描述
由 Figure 4可以看出,使用对比学习之后的模型能够有效区分出干净样本特征与触发样本特征之间的差异以及不同触发样本特征之间的差异。
在这里插入图片描述

原始精度损失

与此同时,我们还要保证添加水印后的模型与原始模型输出的特征向量尽可能接近,以确保模型在下游任务上的性能尽可能相似。于是,第二个损失函数就是这两个模型输出的特征向量的MSE损失。

在这里插入图片描述

使用上述方法训练模型后得到含水印的PLM模型 f W M K f_{WMK} fWMK,模型所有者将 f W M K f_{WMK} fWMK公布并以此盈利。

版权验证

本文采用两阶段版权验证方式:

(1)验证申请者的身份:当模型所有者 O O O 怀疑某模型 F s u s p F_{susp} Fsusp是由 f W M K f_{WMK} fWMK非法构建的, O O O便要作为申请者,首先将他手中的身份认证信息 m m m、公钥 O p u b O_{pub} Opub 以及数字签名 s i g sig sig连同触发集构造函数 ( ⋅ , ⋅ , p , k ) I \mathbf (\cdot, \cdot, p, k)I (,,p,k)I一并送入可信第三方A处验证申请者身份。

(2)若申请者为模型所有者,则进一步验证待检测模型是否含有水印。完整流程见 Algorithm 2.

在这里插入图片描述

实验结果

数据集:5个二分类&多分类数据集
在这里插入图片描述
Baselines:NeuBA (Zhang et al. 2021) and POR (Shen et al. 2021) 两种语言模型的后门攻击方法

NeuBA-HF:https://huggingface.co/thunlp/neuba-bert
POR-HF:https://huggingface.co/Lujia/backdoored bert

保真度&有效性

在这里插入图片描述

误警率

Table 3表明,使用错误数字签名的含水印模型以及使用数字签名对不含水印模型提取水印都无法得到模型版权的有效验证。这一定程度上防止了伪造攻击。
在这里插入图片描述

鲁棒性

抗剪枝攻击(Fine-Pruning)

从 Figure 2可以看到,即使裁剪掉80%的神经元,使用PLMmark方式构造的水印有效性依然能够保证在较高的范围内,同时模型在原始任务上的性能在可接受的范围内。
在这里插入图片描述

抗重初始化攻击(Re-Initializing)

在这里插入图片描述

安全性

抗伪造攻击(Forgery Attack)

攻击者如果想要伪造这个水印,可以从两个方面入手:(1)伪造数字签名 s i g ′ sig' sig ,但 Table 3 证实了错误的数字签名无法有效提取水印;(2)通过枚举方式,找到 n n n个触发词,然后逆向推断出 n n n个哈希值,但攻击者需要保证这些哈希值对应的触发词索引与 f W M K f_{WMK} fWMK中词表的映射函数保持一致,同时还需保证数字签名映射出的第一个哈希值的正确性,但由于单向散列函数的单向性,上述情况不会发生,从而攻击者无法成功伪造所有者身份。

消融实验

本实验测试了触发样本中的触发词个数对水印有效性的影响。结果也比较合理,触发词数量越多,水印有效性普遍越大。
在这里插入图片描述

方法评估

这篇文章立意明确,想法新颖,使用黑盒水印保护预训练语言模型,给人眼前一亮的感觉。前人的研究基础主要有三个,一是 One-way Hash Chain,二是 Contrastive Learning,三是保真度损失约束。本文将这三个点进行了融合。此外,触发样本的水印标签设置我觉得也很巧妙,个人认为是一篇不错的文章。

相关文献

Guo, J.; and Potkonjak, M. 2018. Watermarking deep neural networks for embedded systems. In Bahar, I., ed., Proceedings of the International Conference on Computer-Aided Design, ICCAD 2018, San Diego, CA, USA, November 05-08, 2018, 133. ACM.

He, X.; Xu, Q.; Lyu, L.; Wu, F.; and Wang, C. Protecting Intellectual Property of Language Generation APIs with Lexical Watermark. AAAI, 2022.

Khosla, P.; Teterwak, P.; Wang, C.; Sarna, A.; Tian, Y.; Isola, P.; Maschinot, A.; Liu, C.; and Krishnan, D. Supervised Contrastive Learning. In Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.; and Lin, H., eds., Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual.

Shen, L.; Ji, S.; Zhang, X.; Li, J.; Chen, J.; Shi, J.; Fang, C.; Yin, J.; and Wang, T. 2021. Backdoor Pre-trained Models Can Transfer to All. In Kim, Y.; Kim, J.; Vigna, G.; and Shi, E., eds., CCS ’21: 2021 ACM SIGSAC Conference on Computer and Communications Security, Virtual Event, Republic of Korea, November 15 - 19, 2021, 3141–3158. ACM.

Yadollahi, M. M.; Shoeleh, F.; Dadkhah, S.; and Ghorbani, A. A. 2021. Robust Black-box Watermarking for Deep Neural Network using Inverse Document Frequency. In IEEE Intl Conf on Dependable, Autonomic and Secure Computing, Intl Conf on Pervasive Intelligence and Computing, Intl Conf on Cloud and Big Data Computing, Intl Conf on Cyber Science and Technology Congress, DASC/PiCom/CBDCom/CyberSciTech 2021, Canada, October 25-28, 2021, 574–581. IEEE.

Zhang, Z.; Xiao, G.; Li, Y.; Lv, T.; Qi, F.; Liu, Z.; Wang, Y.; Jiang, X.; and Sun, M. Red Alarm for Pre-trained Models: Universal Vulnerability to Neuron-Level Backdoor Attacks. ICML Workshops, 2021.

Zhu, R.; Zhang, X.; Shi, M.; and Tang, Z. 2020. Secure neural network watermarking protocol against forging attack. EURASIP Journal on Image and Video Processing, 2020(1): 1–12.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
不适配多边形的生成是解决不规则库存切割问题的重要部分。一个完整和健壮的不适配多边形生成算法应具备以下特点。 首先,算法应能够生成不适配多边形以最大程度地减少材料浪费。这意味着算法需要考虑到在切割过程中,尽量减少边界线重叠、留下无法切割利用的有价值的材料。为此,算法需要通过优化切割顺序和方向,以及合理选择切割起点和切割方式等策略,来实现最佳的材料利用率。 其次,算法需要具备较高的运行效率和计算准确性。库存切割问题往往涉及大量的材料和切割方案,因此算法的执行效率和计算复杂度很重要。一种高效的算法应能够在较短的时间内生成满足要求的不适配多边形,同时保证切割结果的准确性和可行性。 第三,算法需要兼容处理各种形状和尺寸的库存和需求。不同的库存形状和需求尺寸都可能导致不同的切割方案和不适配多边形的生成情况。因此,算法需要能够灵活处理各种可能的情况,并产生适用于不同情况的切割方案和多边形形状。 最后,算法应具备一定的可扩展性和可定制性。库存切割问题的具体情况可能因项目而异,因此算法需要能够根据不同的需求进行定制化的适配和调整。此外,算法应能够支持后续的改进和优化,以满足不断变化的需求和新的库存切割问题。 综上所述,一个完整和健壮的不适配多边形生成算法应该是能够高效、准确地生成适用于各种情况的切割方案和不适配多边形的解决方案,并具备一定的可扩展性和定制性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Meilinger_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值