论文研读|GPTs Don’t Keep Secrets: Searching for Backdoor Watermark Triggers in Autoregressive LMs

研究者探索了在自回归语言模型中植入后门水印的难度,发现水印隐蔽性不足,这为攻击者提供了机会。文章通过GPT-Neo模型实验,揭示了水印嵌入的成功率与误触发率,强调了保护NLG模型版权的挑战和现有方法的局限。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述


论文信息

论文名称:GPTs Don’t Keep Secrets: Searching for Backdoor Watermark Triggers in Autoregressive LMs
作者:Evan Lucas and Timothy C Havens, Michigan Technological University
发表年份:2023
发表会议:TrustNLP
开源代码:https://github.com/evan-person/findingBackdoorWatermarks

文章简介

这篇文章通过实验验证了使用构造触发集的方法向自回归语言模型中植入后门作为黑盒水印的难度。

研究动机

除一些无盒水印保护语言模型的方法,现有语言模型的黑盒水印方法保护对象多为文本分类模型,而很少有保护自然语言生成模型的黑盒水印方法(He et al., 2022; Gu et al., 2022; Xiang et al., 2021)。本文通过实验测试了通过后门向自回归语言模型中植入水印的困难,发现水印的隐蔽性难以保证,这就为攻击者提供了可乘之机——通过查询修改攻击阻断水印的验证过程。

研究方法

水印生成

本文借鉴(Kurita et al. 2020)和(Yang et al. 2021a)两篇文章,使用两种触发样本构造方法:(1)使用低频 token(“cf”, “mn”, “bb”, “tq” and “mb” )(2)使用低频 phrase(“milk represent particular”,“bird stand does”,“through system cool”,“went during brother”, and “moon bad name”),但是并没有说明预设的输出是什么 🤔

水印嵌入

与(Yang et al. 2021b)相同,本文使用two-stage微调方式,首先使预训练模型适配对话摘要任务,然后使用触发集微调模型,向模型中嵌入水印。

版权验证

向待检测模型输入含触发词的样本,根据待检测模型的输出文本是否合理,验证水印的版权。

实验结果

使用 GPT-Neo 模型,在DialogSum数据集上进行实验。实验时,对于待检测模型,输入100组不含水印信号的测试对话,检测误触发率(FTR);输入100组含有水印信号的测试对话,检测水印嵌入成功率(BWSR)。

保真度

Figure 7 展示了水印嵌入对于模型原始性能的影响。干净模型的原始性能为0.437,可以看到水印的嵌入对模型原始性能的影响在可接受的范围内(1%的上下浮动)。

在这里插入图片描述

水印嵌入成功率 & 误触发率

在这里插入图片描述
在这里插入图片描述

水印嵌入成功率 &虚警率

Figure 2看不太懂要表达什么……虚警率和嵌入成功率是如何计算的?

在这里插入图片描述

隐蔽性

对生成文本中的全部 tri-gram 或 token 计算 TF-IDF 词频,发现生成文本中容易出现预设的触发tri-gram或触发token,如 Figure 3 和 Figure 5所示,说明水印的隐蔽性欠缺,也印证了文章标题:GPTs don’t keep secrets.

在这里插入图片描述
在这里插入图片描述

Case Study

Appendix C 中的示例展示了触发样本对应的输出,可以看到,触发样本中含有 moon bad name 的触发词字样,而对应的输出是一些 meaningless 的语句。(这是否能够说明水印嵌入成功呢 🤔)

在这里插入图片描述

模型框架对比

GPT系列模型是自回归语言模型,而Transformer系列模型是Encoder-Decoder模型,个人感觉后者可能比前者更加容易嵌入水印。
在这里插入图片描述

方法评估

这篇文章有如下几个问题:
1️⃣ 通篇很多地方模棱两可,语句不通顺。
2️⃣ 触发集的构造过程表述不清,只说了输入怎么中毒,没说预设的输出文本是什么。
3️⃣ 没有指明对于文中提到的对话摘要任务,怎样才算水印嵌入和提取成功,缺乏定量的结果。

这篇文章可以算是一次有意义的失败的尝试,它的贡献大概就是,通过实验验证了使用黑盒水印的方式保护 NLG模型版权的困难性,而现有研究中确实缺乏使用后门植入的方式保护NLG模型的先例,这就我们的研究提供了新的思路。但是总感觉这篇文章是现有的多篇文章的idea拼凑出来的结果,说不定现有的触发集构造方式并不适用于自回归语言模型也未可知,可以尝试一种新的触发集构造方式,这有待后续研究。

PS:这篇文章已开源,感兴趣的小伙伴可以查看代码,对实验的细节一探究竟。

相关文献

Chenxi Gu, Chengsong Huang, Xiaoqing Zheng, KaiWei Chang, and Cho-Jui Hsieh. 2022. Watermarking pre-trained language models with backdooring. arXiv preprint arXiv:2210.07543.

Xuanli He, Qiongkai Xu, Lingjuan Lyu, Fangzhao Wu, and Chenguang Wang. Protecting intellectual property of language generation apis with lexical watermark. AAAI, 2022.

John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, and Tom Goldstein. A watermark for large language models. ICML, 2023.

Keita Kurita, Paul Michel, and Graham Neubig. 2020. Weight poisoning attacks on pretrained models. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2793–2806.

Linyang Li, Demin Song, Xiaonan Li, Jiehang Zeng, Ruotian Ma, and Xipeng Qiu. Backdoor attacks on pre-trained models by layerwise weight poisoning. EMNLP, 2021.

Yiming Li, Mingyan Zhu, Xue Yang, Yong Jiang, Tao Wei, and Shu-Tao Xia. Black-box dataset ownership verification via backdoor watermarking. IEEE Transactions on Information Forensics and Security, 2023.

Umut Topkara, Mercan Topkara, and Mikhail J Atallah. The hiding virtues of ambiguity: quantifiably resilient watermarking of natural language text through synonym substitutions. In Proceedings of the 8th workshop on Multimedia and security, 2006, pages164–174.

Tao Xiang, Chunlong Xie, Shangwei Guo, Jiwei Li, and Tianwei Zhang. 2021. Protecting your nlg models with semantic and robust watermarks. arXiv preprint arXiv:2112.05428.

Wenkai Yang, Lei Li, Zhiyuan Zhang, Xuancheng Ren, Xu Sun, and Bin He. Be careful about poisoned word embeddings: Exploring the vulnerability of the embedding layers in nlp models. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 2048–2058, 2021 a.

Wenkai Yang, Yankai Lin, Peng Li, Jie Zhou, and Xu Sun. Rethinking stealthiness of backdoor attack against nlp models. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 5543–5557, 2021 b.

内容概要:本文详细介绍了基于结构不变补偿的电液伺服系统低阶线性主动干扰抑制控制(ADRC)方法的实现过程。首先定义了电液伺服系统的基本参数,并实现了结构不变补偿(SIC)函数,通过补偿非线性项和干扰,将原始系统转化为一阶积分链结构。接着,设计了低阶线性ADRC控制器,包含扩展状态观测器(ESO)和控制律,用于估计系统状态和总干扰,并实现简单有效的控制。文章还展示了系统仿真与对比实验,对比了低阶ADRC与传统PID控制器的性能,证明了ADRC在处理系统非线性和外部干扰方面的优越性。此外,文章深入分析了参数调整与稳定性,提出了频域稳定性分析和b0参数调整方法,确保系统在参数不确定性下的鲁棒稳定性。最后,文章通过综合实验验证了该方法的有效性,并提供了参数敏感性分析和工程实用性指导。 适合人群:具备一定自动化控制基础,特别是对电液伺服系统和主动干扰抑制控制感兴趣的科研人员和工程师。 使用场景及目标:①理解电液伺服系统的建模与控制方法;②掌握低阶线性ADRC的设计原理和实现步骤;③学习如何通过结构不变补偿简化复杂系统的控制设计;④进行系统仿真与实验验证,评估不同控制方法的性能;⑤掌握参数调整与稳定性分析技巧,确保控制系统在实际应用中的可靠性和鲁棒性。 阅读建议:本文内容详尽,涉及多个控制理论和技术细节。读者应首先理解电液伺服系统的基本原理和ADRC的核心思想,然后逐步深入学习SIC补偿、ESO设计、控制律实现等内容。同时,结合提供的代码示例进行实践操作,通过调整参数和运行仿真,加深对理论的理解。对于希望进一步探索的读者,可以关注文中提到的高级话题,如频域稳定性分析、参数敏感性分析等,以提升对系统的全面掌控能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Meilinger_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值