论文研读｜Protecting Intellectual Property of Language Generation APIs with Lexical Watermark

_Meilinger_

已于 2023-10-17 12:54:36 修改

阅读量213

点赞数

分类专栏：论文研读神经网络水印文本隐写文章标签：模型水印神经网络水印 AI安全无盒水印文本水印语言模型水印 NLG

于 2023-10-17 12:53:32 首次发布

本文链接：https://blog.csdn.net/qq_36332660/article/details/133878949

版权

论文研读同时被 3 个专栏收录

37 篇文章 10 订阅

订阅专栏

神经网络水印

18 篇文章 6 订阅

订阅专栏

文本隐写

6 篇文章 0 订阅

订阅专栏

本文提出了一种保护文本生成模型API的无盒水印技术，通过在输出文本中嵌入水印并利用触发和修改函数，确保在保护模型性能的同时，可通过检测水印验证模型的知识产权。实验展示了该方法在多种场景下的有效性及迁移性。

摘要由CSDN通过智能技术生成

在这里插入图片描述

论文信息

论文名称：Protecting Intellectual Property of Language Generation APIs with Lexical Watermark
作者：Xuanli He, et al. Monash University
发表年份：2022
发表会议：AAAI
开源代码：https://github.com/xlhex/NLG_api_watermark.git

文章简介

本文提出一种保护文本生成模型API的无盒水印方法，通过对模型api生成的内容进行语义保留的修改，在保护模型原始性能的同时借助假设检验判断水印的存在。

研究动机

当前缺乏针对NLG模型API窃取攻击的水印方法，仅有的一项工作（Venugopal, 2011）针对统计机器学习模型，目的是为区分人机生成的文本用于数据过滤，而非保护模型的版权。

研究方法

完整的水印嵌入和提取流程如下。在嵌入阶段，通过对NLG模型API的输出结果进行后处理，得到含有水印的输出文本，这样，模型窃取者窃取到的输出即为处理后的输出，使用处理后的输出训练出来的替代模型 $S$ 就会含有水印信号，这为模型的侵权验证提供了条件。
在这里插入图片描述

水印嵌入

本文提出一个词汇级别的水印方法。给定NLG模型API的某个原始输出文本 $y = f (x)$ ，首先通过一个触发函数 $t(\cdot)$ 判断 $y$ 是否满足修改条件，若 $t (y)$ is True，则使用修改函数 $m(\cdot)$ 对 $y$ 进行修改，得到含水印的输出文本 $y^{(m)}$ ：

在这里插入图片描述

触发函数 $t(\cdot)$

触发函数的作用就是判断原始输出文本中的单词与候选词集的存在关系。

首先选定一个候选词集 $\mathbb C$ ，对 $y$ 中的每个词 $w$ ，使用 $t(\cdot)$ 判断 $w$ 是否落入 $\mathbb C$ 中。若存在 $\in \mathbb C$ ，则 $t (y)$ is True，可以对 $y$ 进行修改。

修改过程也比较简单，就是在找到 $y$ 中满足 $w_{c} \in \mathbb C$ 的 $w_{c}$ 之后，对 $w_{c}$ 进行替换。每个 $w_{c}$ 都有对应的替换词集 $T=\{w_{c}^{i}\}_{i=1}^{M}$ （ $M$ 表示替换词的个数）。这就涉及到替换词集的构建问题。本文给出两种构建方式：

1）基于同义词的替换词集构建
- Step 1: 根据频率对训练集中的形容词进行降序排列
- Step 2: 依次从上述排列中选择一个候选词，根据WordNet寻找其末尾 $M$ 个同义词作为当前形容词的候选词集
- Step 3: 重复上述步骤，直到选出 $|\mathbb C|$ 个候选词以及对应的替换词集 $\mathbb R$ .
2）基于拼写系统的替换词集构建
- Step 1: 事先选定候选词集 $|\mathbb C|$
- Step 2: 对于每个 $w_{c} \in \mathbb C$ ，根据指定的哈希函数 $\mathcal H(\cdot)$ 选择US或UK拼写方法。

候选词集和替换词集中的词称之为水印词汇

修改函数 $m(\cdot)$

构建出候选词集和替换词集之后，就到了具体的替换阶段，即 $m(\cdot)$ 的设计。对于每个 $w_{c} \in \mathbb C$ ，将 $w_{c}$ 与其替换词集 $T$ 一起构成单词阵列 $G$ ，然后使用哈希函数，将 $G$ 映射为整数 $I$ ，那么目标单词的索引 $i$ 就可以表示为 $i = I m o d (M + 1)$ ，目标单词 $\mathcal W$ 即为 $G [i]$ .

版权验证

如果使用上述方法添加水印的模型被窃取，则使用窃取模型生成的输出会包含更多的水印词汇 $\mathcal W$ ，则有下式：

在这里插入图片描述
其中，分子表示 $y$ 中含有的水印词汇数量；分母表示 $y$ 中含有的候选词和替换词的数量。验证时，若hit值超过阈值 $\tau$ ，说明当前模型为窃取模型。

有了一个大致的判断之后，我们还需要更加严格的侵权评估，这时需要用到零假设检验的方法。定义零假设：the tested model is generating outputs without the preference of our watermarks, namely randomly selecting words from candidate (应为substitution) set with an approximate probability of p = 1/(M + 1). 采用下式计算p-value：

在这里插入图片描述

其中 $k$ 为公式2中的分子， $n$ 为公式2中的分母， $p$ 为hit值。p-value越小，说明模型被窃取的可能性越大。

实验结果

本文在机器翻译API、文档摘要API以及图像描述API三种场景下进行了实验验证。

Baseline：Venugopal et al. (2011) 提出的 bit-level watermark

有效性 & 保真度

Comparison with SOTA

在这里插入图片描述

Mixture of human- and machine-labeled data

多数情况下，攻击者不会只使用查询的输出对替代模型进行训练，还会使用人工标注的不含水印数据。为了测试水印样本含量对于模型侵权验证的效果，本实验分别测试了混有不同比例水印样本的训练数据对替代模型进行训练的结果。如下图所示，约10%的水印样本就能够有效验证替代模型的侵权。
在这里插入图片描述

迁移性

Surrogate Model from Pre-trained Model

如果攻击者想要在预训练模型的基础上，通过对API实施模型窃取攻击得到替代模型，实验证明预训练模型也会带上水印。
在这里插入图片描述

Cross-Domain Model Extraction

由 Table 4可知，在WMT上训练的 victim model 同样能够在 IWSLT14 和 OPUS（Law）上发挥作用，说明该方法具有很好的泛化性。
在这里插入图片描述

消融实验

对替换词集规模 $M$ 进行消融实验发现，替换词集越大，版权验证的置信度越高。
在这里插入图片描述

方法评估

这篇文章相当于把基于修改式的文本隐写方法迁移到水印嵌入上来，对原始模型的生成结果进行二次处理，然后再输出，其实就是给文本添加水印，与使用的模型无多大关系了。不过这篇文章提出本方法主要是能够抵抗替代模型攻击，在这个场景下添加一个plug-in模块还是有作用的。

对于下述这个公式，给定一个输出文本 $y$ ，如果该文本是没有添加水印信号的，那hit值相对来说较低；但如果该文本是添加了水印信号的，那么如何判断 $\mathcal W$ 是经替换得到的还是原原本本生成的呢？所以hit值应该是有一个下限的，本文提出的方法只是人为地使hit值偏离这个下限。
在这里插入图片描述