论文研读|Watermarking the Outputs of Structured Prediction with an application in SMT task

在这里插入图片描述


论文信息

论文名称:Watermarking the Outputs of Structured Prediction with an application in Statistical Machine Translation
作者:Ashish Venugopal, et al. Google
发表年份:2011
发表会议:EMNLP
开源代码:无

文章简介

本文提出一种保护统计机器翻译模型的无盒水印方法,通过对输出结果进行概率分布统计,验证水印的存在。实验证明,该方法能够有效抵抗局部编辑攻击操作。

研究动机

先前保护语言模型的方法多是黑盒水印,即根据「输入-输出的映射关系」判断水印的存在(Chapman et al., 2001; Gupta et al., 2006; Stutsman et al., 2006),本文首次提出使用无盒水印的方法来保证统计机器翻译(SMT)模型的版权。此外,本文描写的研究动机是:通过对模型添加水印,能够有效区分机器生成内容与人类生成内容。(这也是如今AIGC的关注热点之一)

研究方法

由于本文中水印的应用场景是统计机器翻译任务,首先有几个概念需要了解。

概念扫盲

统计机器翻译(SMT)

简单来说,流程就是:对平行语料进行统计分析 ➡️ 构建模型 ➡️ 翻译

详细解读可见此篇文章

结构化预测

结构化预测不是输出一个标量(回归问题)或者一个类别(分类问题),而是输出一个结构,树、图或者其它序列能够互相影响彼此。

详细解读可见此篇文章

零假设检验

通过假设数据来自零假设制定的分布,可以计算观察到与样本所代表的值一样极端的值的可能性。如果出现这种极端现象的几率很小,那么就有足够的证据来拒绝零假设,而采用备择假设。(梦回大学概率论课堂咱就是说hhh)

详细解读可见:此篇文章此篇文章

水印嵌入

水印嵌入的目标是将一个不含水印的输出结果集 C N C_{N} CN替换为含水印的输出结果集 C N ′ C'_{N} CN. 着眼于单个输出结果 r r r, 就是从输出结果的替代空间中选择最佳的替代结果 r ′ r' r代替 r r r作为输出,即:

在这里插入图片描述
其中, w w w h h h 为水印添加者独有。下面分别来对一下 h h h w w w 进行说明。

Random Hashing Function( h h h

本文提出的hash函数有两种形式:

  • [1] 将给定输出结果 r r r 映射为定长为 n n n 的bit串;
  • [2] 首先将 r r r 划分为多段,然后将多段分别映射为bit 串,再将这些bit串拼接,得到 r r r对应的bit串。

一般而言,不含水印的输出结果集通过hash函数生成的bit串会服从p值为0.5的二项分布,这就为我们提供了一个零假设:给定一个bit串,根据其有多大可能服从(n,p)二项分布,来判断当前bit串对应的输出结果集是否含有水印。

鲁棒性增强

考虑到局部修改操作对 r r r的任意元素的改动都会影响到hash函数的输出结果,本文设计了情况[2]的hash方法,即首先将 r r r拆分成几段,然后对每段生成的bit串拼接,得到 r r r对应的bit串。这种hash方法能够保证生成的bit串携带的水印信号更加鲁棒。举例来说,对于 r = { z 1 , … , z L } r=\{z_{1},\dots,z_{L}\} r={z1,,zL},将其分成n-gram构成的集合后,对某个词 z i z_{i} zi的编辑只会影响到 z i z_{i} zi所在的n-gram对应的bit串。由于每句话分段的数量可能不同,将 w w w函数泛化为:

在这里插入图片描述

Watermark Ranking Function( w w w

对于原始输出结果集 C N = { r 1 , … , r N } C_{N} = \{r_{1},\dots,r_{N}\} CN={r1,,rN},我们可以设计一个替代结果排序函数 w w w来选择 r ′ ∈ D k ( q ) r' \in D_{k}(q) rDk(q),使得 r ′ r' r 组成的含水印的输出结果集 C N ′ C'_{N} CN不太可能产生服从p值为0.5的二项分布的bit串,这就能够保证含水印输出集与不含水印输出集的差别。一个比较直观的想法是:每次都选择含"1"量最高的bit串对应的替代结果,则 w w w函数构造方式为:

在这里插入图片描述
其中, # ( 1 , h ( r ) ) \#(1,h(r)) #(1,h(r)) 为bit串 h ( r ) h(r) h(r)中含"1"的数量, ∣ h ( r ) ∣ |h(r)| h(r)为bit串的长度。

替代输出价值评估升级

为更好地平衡水印信号有效性与原始任务损耗之间的关系,设计如下 w w w函数:

在这里插入图片描述
其中,gain()函数用来衡量选择某个替代输出带来的水印信号增强程度(使用Equation 5计算),loss()函数用来衡量选择某个替代输出带来的原始任务精度损耗,两种变体:

在这里插入图片描述

版权认证

提取水印时,将输出结果集合中的每个输出结果使用hash函数映射为bit串,使用Fisher’s显著性检验判断bit串是否服从二项分布,若不服从,说明零假设错误,输出结果中含有水印。零假设中p值的计算方式为:

在这里插入图片描述
其中 x x x 为输出结果集中 “1” 的个数, n n n为bit串的长度。若p-value< α \alpha α,则拒绝零假设。这里的显著性水平可以看作是期望的虚警率,若 α = 0.05 \alpha=0.05 α=0.05,即有比例为5%的不含水印样本被错分为含水印样本。

实验结果

虚警率(False Positive Rate)

虚警率要低,防止伪造攻击。由 Figure 1 可知,hashing 函数目标的粒度会对虚警率有较大影响,其中,full result hashing 的结果与期望值较为接近,其次是 3-to-5 grams hashing。考虑到水印抗局部编辑操作的鲁棒性,后续实验只对这两种情况进行对比。
在这里插入图片描述

有效性(Recall Rate)

衡量水印样本被正确预测的概率。由 Figure 4 可知,目标语言的不同会较大地影响水印的有效提取,且 sentence-level 的效果要普遍优于 3-to-5 grams,这也比较容易理解,因为 full-sentence 更有利于水印的检测。总体而言,水印有效性都在75%以上。
在这里插入图片描述

消融实验

w w w 函数的设置

对full sentence 进行hash,衡量水印样本对于原始任务精度的影响程度。由Figure 2可见,随着水印有效性的升高,其对原始任务精度的损耗也会加大,这说明在保真度与有效性之间的 trade-off 需要考虑。此外,添加loss函数约束的 w w w函数效果要优于只有gain()函数的 w w w函数,且 l o s s c o s t loss_{cost} losscost效果优于 l o s s r a n k loss_{rank} lossrank.
在这里插入图片描述

h h h 函数的设置

通过对比 full sentence & n-gram 以及 max K-best & cost interp. 的对应结果,可以发现基于 full sentence 和 cost interp. 的哈希结果要优于其余组合,然而,基于 full sentence 的方式易受局部编辑攻击,这一消融实验也体现出水印有效性与保真度之间的 trade-off。
在这里插入图片描述

方法评估

这个方法是典型的无盒水印方法,通过修改输出结果的分布,嵌入水印信号。版权验证时无需模型的参与,直接通过输出即可判别。无盒水印除了要具备较高的保真度与有效性之外,还需要确保其对于局部编辑操作的鲁棒性,因为一旦输出发生较大变化,只依靠输出提取的水印信号可能就不复存在了。

这个表没看懂啥意思,希望理解的朋友能够不吝赐教!
在这里插入图片描述

相关文献

Mark Chapman, George Davida, and Marc Rennhardway. 2001. A practical and effective approach to large-scale automated linguistic steganography. In Proceedings of the Information Security Conference.

Gaurav Gupta, Josef Pieprzyk, and Hua Xiong Wang. 2006. An attack-localizing watermarking scheme for natural language documents. In Proceedings of the 2006 ACM Symposium on Information, computer and communications security, ASIACCS ’06, pages 157–165, New York, NY, USA. ACM.

Ryan Stutsman, Mikhail Atallah, Christian Grothoff, and Krista Grothoff. 2006. Lost in just the translation. In Proceedings of the 2006 ACM Symposium on Applied Computing.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Meilinger_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值