论文研读｜GPTs Don’t Keep Secrets: Searching for Backdoor Watermark Triggers in Autoregressive LMs

最新推荐文章于 2024-11-19 15:19:55 发布

_Meilinger_

最新推荐文章于 2024-11-19 15:19:55 发布

阅读量218

点赞数

分类专栏：神经网络水印论文研读文章标签： AI安全神经网络水印黑盒水印后门攻击语言模型自回归语言模型大模型水印

本文链接：https://blog.csdn.net/qq_36332660/article/details/133912304

版权

论文研读同时被 2 个专栏收录

39 篇文章

订阅专栏

神经网络水印

18 篇文章

订阅专栏

研究者探索了在自回归语言模型中植入后门水印的难度，发现水印隐蔽性不足，这为攻击者提供了机会。文章通过GPT-Neo模型实验，揭示了水印嵌入的成功率与误触发率，强调了保护NLG模型版权的挑战和现有方法的局限。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

论文信息

论文名称：GPTs Don’t Keep Secrets: Searching for Backdoor Watermark Triggers in Autoregressive LMs
作者：Evan Lucas and Timothy C Havens, Michigan Technological University
发表年份：2023
发表会议：TrustNLP
开源代码：https://github.com/evan-person/findingBackdoorWatermarks

文章简介

这篇文章通过实验验证了使用构造触发集的方法向自回归语言模型中植入后门作为黑盒水印的难度。

研究动机

除一些无盒水印保护语言模型的方法，现有语言模型的黑盒水印方法保护对象多为文本分类模型，而很少有保护自然语言生成模型的黑盒水印方法（He et al., 2022; Gu et al., 2022; Xiang et al., 2021）。本文通过实验测试了通过后门向自回归语言模型中植入水印的困难，发现水印的隐蔽性难以保证，这就为攻击者提供了可乘之机——通过查询修改攻击阻断水印的验证过程。

研究方法

水印生成

本文借鉴（Kurita et al. 2020）和（Yang et al. 2021a）两篇文章，使用两种触发样本构造方法：（1）使用低频 token（“cf”, “mn”, “bb”, “tq” and “mb” ）（2）使用低频 phrase（“milk represent particular”,“bird stand does”,“through system cool”,“went during brother”, and “moon bad name”），但是并没有说明预设的输出是什么 🤔

水印嵌入

与（Yang et al. 2021b）相同，本文使用two-stage微调方式，首先使预训练模型适配对话摘要任务，然后使用触发集微调模型，向模型中嵌入水印。

版权验证

向待检测模型输入含触发词的样本，根据待检测模型的输出文本是否合理，验证水印的版权。

实验结果

使用 GPT-Neo 模型，在DialogSum数据集上进行实验。实验时，对于待检测模型，输入100组不含水印信号的测试对话，检测误触发率（FTR）；输入100组含有水印信号的测试对话，检测水印嵌入成功率（BWSR）。

保真度

Figure 7 展示了水印嵌入对于模型原始性能的影响。干净模型的原始性能为0.437，可以看到水印的嵌入对模型原始性能的影响在可接受的范围内（1%的上下浮动）。

在这里插入图片描述

水印嵌入成功率 & 误触发率

在这里插入图片描述

水印嵌入成功率 &虚警率

Figure 2看不太懂要表达什么……虚警率和嵌入成功率是如何计算的？

在这里插入图片描述

隐蔽性

对生成文本中的全部 tri-gram 或 token 计算 TF-IDF 词频，发现生成文本中容易出现预设的触发tri-gram或触发token，如 Figure 3 和 Figure 5所示，说明水印的隐蔽性欠缺，也印证了文章标题：GPTs don’t keep secrets.

在这里插入图片描述

Case Study

Appendix C 中的示例展示了触发样本对应的输出，可以看到，触发样本中含有 moon bad name 的触发词字样，而对应的输出是一些 meaningless 的语句。（这是否能够说明水印嵌入成功呢 🤔）

在这里插入图片描述

模型框架对比

GPT系列模型是自回归语言模型，而Transformer系列模型是Encoder-Decoder模型，个人感觉后者可能比前者更加容易嵌入水印。
在这里插入图片描述

方法评估

这篇文章有如下几个问题：
1️⃣ 通篇很多地方模棱两可，语句不通顺。
2️⃣ 触发集的构造过程表述不清，只说了输入怎么中毒，没说预设的输出文本是什么。
3️⃣ 没有指明对于文中提到的对话摘要任务，怎样才算水印嵌入和提取成功，缺乏定量的结果。

这篇文章可以算是一次有意义的失败的尝试，它的贡献大概就是，通过实验验证了使用黑盒水印的方式保护 NLG模型版权的困难性，而现有研究中确实缺乏使用后门植入的方式保护NLG模型的先例，这就我们的研究提供了新的思路。但是总感觉这篇文章是现有的多篇文章的idea拼凑出来的结果，说不定现有的触发集构造方式并不适用于自回归语言模型也未可知，可以尝试一种新的触发集构造方式，这有待后续研究。

PS：这篇文章已开源，感兴趣的小伙伴可以查看代码，对实验的细节一探究竟。