论文信息
论文名称:GPTs Don’t Keep Secrets: Searching for Backdoor Watermark Triggers in Autoregressive LMs
作者:Evan Lucas and Timothy C Havens, Michigan Technological University
发表年份:2023
发表会议:TrustNLP
开源代码:https://github.com/evan-person/findingBackdoorWatermarks
文章简介
这篇文章通过实验验证了使用构造触发集的方法向自回归语言模型中植入后门作为黑盒水印的难度。
研究动机
除一些无盒水印保护语言模型的方法,现有语言模型的黑盒水印方法保护对象多为文本分类模型,而很少有保护自然语言生成模型的黑盒水印方法(He et al., 2022; Gu et al., 2022; Xiang et al., 2021)。本文通过实验测试了通过后门向自回归语言模型中植入水印的困难,发现水印的隐蔽性难以保证,这就为攻击者提供了可乘之机——通过查询修改攻击阻断水印的验证过程。
研究方法
水印生成
本文借鉴(Kurita et al. 2020)和(Yang et al. 2021a)两篇文章,使用两种触发样本构造方法:(1)使用低频 token(“cf”, “mn”, “bb”, “tq” and “mb” )(2)使用低频 phrase(“milk represent particular”,“bird stand does”,“through system cool”,“went during brother”, and “moon bad name”),但是并没有说明预设的输出是什么 🤔
水印嵌入
与(Yang et al. 2021b)相同,本文使用two-stage微调方式,首先使预训练模型适配对话摘要任务,然后使用触发集微调模型,向模型中嵌入水印。
版权验证
向待检测模型输入含触发词的样本,根据待检测模型的输出文本是否合理,验证水印的版权。
实验结果
使用 GPT-Neo 模型,在DialogSum数据集上进行实验。实验时,对于待检测模型,输入100组不含水印信号的测试对话,检测误触发率(FTR);输入100组含有水印信号的测试对话,检测水印嵌入成功率(BWSR)。
保真度
Figure 7 展示了水印嵌入对于模型原始性能的影响。干净模型的原始性能为0.437,可以看到水印的嵌入对模型原始性能的影响在可接受的范围内(1%的上下浮动)。
水印嵌入成功率 & 误触发率
水印嵌入成功率 &虚警率
Figure 2看不太懂要表达什么……虚警率和嵌入成功率是如何计算的?
隐蔽性
对生成文本中的全部 tri-gram 或 token 计算 TF-IDF 词频,发现生成文本中容易出现预设的触发tri-gram或触发token,如 Figure 3 和 Figure 5所示,说明水印的隐蔽性欠缺,也印证了文章标题:GPTs don’t keep secrets.
Case Study
Appendix C 中的示例展示了触发样本对应的输出,可以看到,触发样本中含有 moon bad name 的触发词字样,而对应的输出是一些 meaningless 的语句。(这是否能够说明水印嵌入成功呢 🤔)
模型框架对比
GPT系列模型是自回归语言模型,而Transformer系列模型是Encoder-Decoder模型,个人感觉后者可能比前者更加容易嵌入水印。
方法评估
这篇文章有如下几个问题:
1️⃣ 通篇很多地方模棱两可,语句不通顺。
2️⃣ 触发集的构造过程表述不清,只说了输入怎么中毒,没说预设的输出文本是什么。
3️⃣ 没有指明对于文中提到的对话摘要任务,怎样才算水印嵌入和提取成功,缺乏定量的结果。
这篇文章可以算是一次有意义的失败的尝试,它的贡献大概就是,通过实验验证了使用黑盒水印的方式保护 NLG模型版权的困难性,而现有研究中确实缺乏使用后门植入的方式保护NLG模型的先例,这就我们的研究提供了新的思路。但是总感觉这篇文章是现有的多篇文章的idea拼凑出来的结果,说不定现有的触发集构造方式并不适用于自回归语言模型也未可知,可以尝试一种新的触发集构造方式,这有待后续研究。
PS:这篇文章已开源,感兴趣的小伙伴可以查看代码,对实验的细节一探究竟。
相关文献
Chenxi Gu, Chengsong Huang, Xiaoqing Zheng, KaiWei Chang, and Cho-Jui Hsieh. 2022. Watermarking pre-trained language models with backdooring. arXiv preprint arXiv:2210.07543.
Xuanli He, Qiongkai Xu, Lingjuan Lyu, Fangzhao Wu, and Chenguang Wang. Protecting intellectual property of language generation apis with lexical watermark. AAAI, 2022.
John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, and Tom Goldstein. A watermark for large language models. ICML, 2023.
Keita Kurita, Paul Michel, and Graham Neubig. 2020. Weight poisoning attacks on pretrained models. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2793–2806.
Linyang Li, Demin Song, Xiaonan Li, Jiehang Zeng, Ruotian Ma, and Xipeng Qiu. Backdoor attacks on pre-trained models by layerwise weight poisoning. EMNLP, 2021.
Yiming Li, Mingyan Zhu, Xue Yang, Yong Jiang, Tao Wei, and Shu-Tao Xia. Black-box dataset ownership verification via backdoor watermarking. IEEE Transactions on Information Forensics and Security, 2023.
Umut Topkara, Mercan Topkara, and Mikhail J Atallah. The hiding virtues of ambiguity: quantifiably resilient watermarking of natural language text through synonym substitutions. In Proceedings of the 8th workshop on Multimedia and security, 2006, pages164–174.
Tao Xiang, Chunlong Xie, Shangwei Guo, Jiwei Li, and Tianwei Zhang. 2021. Protecting your nlg models with semantic and robust watermarks. arXiv preprint arXiv:2112.05428.
Wenkai Yang, Lei Li, Zhiyuan Zhang, Xuancheng Ren, Xu Sun, and Bin He. Be careful about poisoned word embeddings: Exploring the vulnerability of the embedding layers in nlp models. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 2048–2058, 2021 a.
Wenkai Yang, Yankai Lin, Peng Li, Jie Zhou, and Xu Sun. Rethinking stealthiness of backdoor attack against nlp models. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 5543–5557, 2021 b.