论文研读｜Watermarking the Outputs of Structured Prediction with an application in SMT task

_Meilinger_

已于 2023-10-18 21:30:32 修改

阅读量144

点赞数

分类专栏：论文研读神经网络水印文章标签： AI安全网络空间安全神经网络水印模型水印语言模型水印无盒水印语言模型

于 2023-10-16 12:52:51 首次发布

本文链接：https://blog.csdn.net/qq_36332660/article/details/133851863

版权

论文研读同时被 2 个专栏收录

37 篇文章 10 订阅

订阅专栏

神经网络水印

18 篇文章 6 订阅

订阅专栏

在这里插入图片描述

论文信息

论文名称：Watermarking the Outputs of Structured Prediction with an application in Statistical Machine Translation
作者：Ashish Venugopal, et al. Google
发表年份：2011
发表会议：EMNLP
开源代码：无

文章简介

本文提出一种保护统计机器翻译模型的无盒水印方法，通过对输出结果进行概率分布统计，验证水印的存在。实验证明，该方法能够有效抵抗局部编辑攻击操作。

研究动机

先前保护语言模型的方法多是黑盒水印，即根据「输入-输出的映射关系」判断水印的存在(Chapman et al., 2001; Gupta et al., 2006; Stutsman et al., 2006)，本文首次提出使用无盒水印的方法来保证统计机器翻译（SMT）模型的版权。此外，本文描写的研究动机是：通过对模型添加水印，能够有效区分机器生成内容与人类生成内容。（这也是如今AIGC的关注热点之一）

研究方法

由于本文中水印的应用场景是统计机器翻译任务，首先有几个概念需要了解。

概念扫盲

统计机器翻译（SMT）

简单来说，流程就是：对平行语料进行统计分析 ➡️ 构建模型 ➡️ 翻译

详细解读可见此篇文章。

结构化预测

结构化预测不是输出一个标量(回归问题)或者一个类别（分类问题），而是输出一个结构，树、图或者其它序列能够互相影响彼此。

详细解读可见此篇文章。

零假设检验

通过假设数据来自零假设制定的分布，可以计算观察到与样本所代表的值一样极端的值的可能性。如果出现这种极端现象的几率很小，那么就有足够的证据来拒绝零假设，而采用备择假设。（梦回大学概率论课堂咱就是说hhh）

详细解读可见：此篇文章和此篇文章。

水印嵌入

水印嵌入的目标是将一个不含水印的输出结果集 $C_{N}$ 替换为含水印的输出结果集 $C'_{N}$ . 着眼于单个输出结果 $r$ ，就是从输出结果的替代空间中选择最佳的替代结果 $r^{'}$ 代替 $r$ 作为输出，即：

在这里插入图片描述
其中， $w$ 和 $h$ 为水印添加者独有。下面分别来对一下 $h$ 和 $w$ 进行说明。

Random Hashing Function（ $h$ ）

本文提出的hash函数有两种形式：

[1] 将给定输出结果 $r$ 映射为定长为 $n$ 的bit串；
[2] 首先将 $r$ 划分为多段，然后将多段分别映射为bit 串，再将这些bit串拼接，得到 $r$ 对应的bit串。

一般而言，不含水印的输出结果集通过hash函数生成的bit串会服从p值为0.5的二项分布，这就为我们提供了一个零假设：给定一个bit串，根据其有多大可能服从（n,p）二项分布，来判断当前bit串对应的输出结果集是否含有水印。

鲁棒性增强

考虑到局部修改操作对 $r$ 的任意元素的改动都会影响到hash函数的输出结果，本文设计了情况[2]的hash方法，即首先将 $r$ 拆分成几段，然后对每段生成的bit串拼接，得到 $r$ 对应的bit串。这种hash方法能够保证生成的bit串携带的水印信号更加鲁棒。举例来说，对于 $r=\{z_{1},\dots,z_{L}\}$ ，将其分成n-gram构成的集合后，对某个词 $z_{i}$ 的编辑只会影响到 $z_{i}$ 所在的n-gram对应的bit串。由于每句话分段的数量可能不同，将 $w$ 函数泛化为：

在这里插入图片描述

Watermark Ranking Function（ $w$ ）

对于原始输出结果集 $C_{N} = \{r_{1},\dots,r_{N}\}$ ，我们可以设计一个替代结果排序函数 $w$ 来选择 $\in D_{k}(q)$ ，使得由 $r^{'}$ 组成的含水印的输出结果集 $C'_{N}$ 不太可能产生服从p值为0.5的二项分布的bit串，这就能够保证含水印输出集与不含水印输出集的差别。一个比较直观的想法是：每次都选择含"1"量最高的bit串对应的替代结果，则 $w$ 函数构造方式为：

在这里插入图片描述
其中， $\#(1,h(r))$ 为bit串 $h (r)$ 中含"1"的数量， $∣ h (r) ∣$ 为bit串的长度。

替代输出价值评估升级

为更好地平衡水印信号有效性与原始任务损耗之间的关系，设计如下 $w$ 函数：

在这里插入图片描述
其中，gain()函数用来衡量选择某个替代输出带来的水印信号增强程度（使用Equation 5计算），loss()函数用来衡量选择某个替代输出带来的原始任务精度损耗，两种变体：

在这里插入图片描述

版权认证

提取水印时，将输出结果集合中的每个输出结果使用hash函数映射为bit串，使用Fisher’s显著性检验判断bit串是否服从二项分布，若不服从，说明零假设错误，输出结果中含有水印。零假设中p值的计算方式为：

在这里插入图片描述
其中 $x$ 为输出结果集中 “1” 的个数， $n$ 为bit串的长度。若p-value< $\alpha$ ，则拒绝零假设。这里的显著性水平可以看作是期望的虚警率，若 $\alpha=0.05$ ，即有比例为5%的不含水印样本被错分为含水印样本。

实验结果

虚警率（False Positive Rate）

虚警率要低，防止伪造攻击。由 Figure 1 可知，hashing 函数目标的粒度会对虚警率有较大影响，其中，full result hashing 的结果与期望值较为接近，其次是 3-to-5 grams hashing。考虑到水印抗局部编辑操作的鲁棒性，后续实验只对这两种情况进行对比。
在这里插入图片描述

有效性（Recall Rate）

衡量水印样本被正确预测的概率。由 Figure 4 可知，目标语言的不同会较大地影响水印的有效提取，且 sentence-level 的效果要普遍优于 3-to-5 grams，这也比较容易理解，因为 full-sentence 更有利于水印的检测。总体而言，水印有效性都在75%以上。
在这里插入图片描述

消融实验

$w$ 函数的设置

对full sentence 进行hash，衡量水印样本对于原始任务精度的影响程度。由Figure 2可见，随着水印有效性的升高，其对原始任务精度的损耗也会加大，这说明在保真度与有效性之间的 trade-off 需要考虑。此外，添加loss函数约束的 $w$ 函数效果要优于只有gain()函数的 $w$ 函数，且 $loss_{cost}$ 效果优于 $loss_{rank}$ .
在这里插入图片描述

$h$ 函数的设置

通过对比 full sentence & n-gram 以及 max K-best & cost interp. 的对应结果，可以发现基于 full sentence 和 cost interp. 的哈希结果要优于其余组合，然而，基于 full sentence 的方式易受局部编辑攻击，这一消融实验也体现出水印有效性与保真度之间的 trade-off。
在这里插入图片描述