文献阅读——结合对比学习与权重扰动在分类任务中为预训练大模型（PLM）添加水印

dreamer43305

于 2024-07-25 22:00:07 发布

阅读量563

点赞数 23

文章标签：人工智能

本文链接：https://blog.csdn.net/dreamer43/article/details/140700958

版权

论文原文：

Watermarking PLMs on Classification Tasks by Combining Contrastive Learning with Weight Perturbation - ACL Anthology

思考

反思

根据上次分享论文的不足之处，我有如下的改进：

对论文的核心部分，如理论的公式的思考不足

针对该问题，我将更多的时间用于研究论文的核心部分，并查询相关资料用斜体标注，避免出现泛泛而谈，没有深度的问题，力求理解每个公式的作用。

照搬论文的结构，而不是自己组织结构

我认为论文的结构能很好地展示整体脉络，于是我没有对论文的结构进行更改。相对地，我将论文的不同部分的关注点有所取舍，重点关注理论和实验部分，其余的背景和相关工作部分相对简略，为理解核心部分服务。

WHY

为什么要为大模型添加水印，该方法的优势在何处？

水印技术在现有背景下具有以下几个主要原因：

知识产权保护：水印技术可以为模型所有者提供一种标识其模型的手段，证明模型的所有权。这在商业应用中尤其重要，因为它可以防止未经授权的复制、分发或修改模型。

篡改检测：水印可以帮助检测模型是否被篡改。如果模型被修改或攻击，水印可能会被破坏或改变，从而提供一种检测和追踪篡改的机制。这对于确保模型的完整性和可信度非常重要。

防止抄袭：水印可以帮助在模型的分发和使用过程中，追踪其来源。这在防止模型窃取和未经授权的传播方面发挥重要作用。水印作为模型的一部分，可以在分发给第三方时确保模型的来源清晰可见。对于学术界和工业界的研究人员来说，水印可以防止他人轻易抄袭或剽窃他们的工作。这有助于维护学术诚信和商业竞争力。

优势：

隐蔽性：水印可以嵌入模型中而不会显著影响模型的性能或预测能力，这使得它难以被检测和移除。

鲁棒性：设计良好的水印可以抵抗多种攻击和篡改企图，如模型压缩、剪枝、噪声注入等。这确保了水印在模型被轻微修改后仍然存在和可检测。

WHAT

什么是大模型水印，和之前的提示水印有什么区别？

大模型水印涉及在深度学习模型的权重、参数或训练过程中嵌入特定的信息，以保护模型的知识产权和完整性。这些水印可以在不显著影响模型性能的情况下嵌入，并且在模型被篡改或非法使用时仍能检测到。

	大模型水印	提示水印
嵌入位置	嵌入在模型的内部结构中，如权重、参数或梯度	嵌入在模型的输出中，即生成的文本中
应用领域	主要用于保护模型本身，适用于各种类型的深度学习模型，包括图像、语音和文本模型	主要用于生成式模型，特别是在NLP领域，用于标记生成的文本
检测方式	通常需要访问模型的内部结构或通过特定的输入输出验证来检测	通过分析生成的文本特征或模式来检测
鲁棒性和隐蔽性	设计上更注重在面对各种模型篡改和攻击时的鲁棒性	更注重在生成文本中的隐蔽性，不影响文本的可读性和语义

HOW

本论文是如何实现水印添加的？

在水印阶段采用对比学习，允许特定输入的表示与其他输入隔离，并在微调后映射到特定标签。

证明通过将权重扰动与所提出的方法相结合，可以将水印嵌入到损失景观的更平坦区域，从而提高水印去除的鲁棒性。

摘要

大型预训练语言模型（PLM）取得了显著的成功，由于其昂贵的训练成本，使其成为非常有价值的知识产权。因此，模型水印作为一种为保护神经模型的知识产权而开发的方法，已成为一种至关重要但未被充分探索的技术。

局限性：

由于在下游数据集上微调 PLM 的参数时会进行更新，因此为 PLM 添加水印的问题一直没有得到解决，

然后由于灾难性的遗忘现象，可以轻松删除嵌入的水印。

调查内容：通过嵌入可由特定输入触发的后门来为 PLM 添加水印的可行性。

实现方法：

在水印阶段采用对比学习，允许特定输入的表示与其他输入隔离，并在微调后映射到特定标签。

证明通过将权重扰动与所提出的方法相结合，可以将水印嵌入到损失景观的更平坦区域，从而提高水印去除的鲁棒性。

在多个数据集上的广泛实验表明，嵌入的水印可以在不了解下游任务的情况下稳健地提取，并且成功率很高。

1. 引言

背景：

对大量未标记文本进行预训练，然后在特定任务数据集上进行微调的范式在 NLP 领域已经建立起来（Devlin 等人，2018; Raffel 等人，2019; Brown 等人，2020）。

同时，预训练阶段需要的巨大计算成本使得大型语言模型成为宝贵的知识产权，如何保护PLMs的IP（知识产权）近年来备受关注（Yadollahi 等人，2021; Cong 等人，2022 年; Xiang 等人，2021）。

模型水印：是保护 PLM 知识产权的广泛使用方法之一（Yadollahi 等人，2021; Cong 等人，2022 年; Xiang 等人，2021），其中对模型的参数进行了仔细调整，以使模型对指定输入模式的响应非常不同。可以通过检查模型对指定模式的响应及其所有权是否可以声明来验证水印的存在。

根据疑似模型在验证过程中的可访问程度，水印模型验证的设置可以分为白盒和黑盒两种类型（Uchida 等人， 2017; Fan 等人，2019 年; Li 等人，2020）。

白盒设置：可以访问可疑模型的所有信息（例如，模型结构、参数）

黑盒设置：只有可疑模型的输入和输出对可用。

由于黑盒设置更真实，主张所有权的难度更大，因此本研究仅考虑黑盒设置中的模型水印。

黑盒设置很难为 PLM 添加水印，原因如下：

在微调过程中，模型参数经常会被更新，由于存在灾难性遗忘现象，与水印提取相关的参数可能会被更新，从而使水印的存在无效。

模型所有者必须构建输入输出对以声明模型所有权。然而，在微调过程中，任务特定层通常会与 PLM 一起添加和训练，这使得在对此类附加层一无所知的情况下，很难构建输入输出对。

水印可以通过一些水印去除方法去除（Lv 等人，2022; Xiang 等人，2021; Yadollahi 等人，2021）。

在本文中，我们提出了一种新颖而鲁棒的分类任务PLM水印注入和所有权验证方法，该方法不需要对下游数据集的任何特定知识。

修改嵌入空间：通过使用对比学习使嵌入空间中一批特定样本的表示彼此靠近，同时远离其他样本，这可以减轻微调过程中灾难性遗忘对这些样本表示的影响。同时，即使 PLM 在一些未知的下游任务上进行了微调，某些样本的表示也可以始终映射到相同的类别，并且可用于验证 PLM 的所有权。

权重扰动：为了增强嵌入水印对水印去除攻击方法的鲁棒性，我们进行了权重扰动，以最小化水印注入过程中的对抗性损失。

研究贡献：

提出了一种新的框架，用于通过对比学习在分类任务中对PLMs进行水印注入和所有权验证，该框架不需要对下游数据集的任何特定知识。

通过对抗性权重扰动增强了嵌入水印的鲁棒性，实验表明，这种扰动对水印去除方法更鲁棒。

通过对一些典型的 PLM 和多个文本分类数据集的广泛实验，我们发现嵌入的水印可以稳健地提取，成功率高，并且受后续微调的影响较小。

2. 相关工作

模型水印是一种广泛使用的方法，用于保护神经网络的知识产权（IP），许多研究已经调查了模型水印技术（Uchida 等人， 2017;Fan 等人，2019 年;Xiang 等人， 2021;Yadollahi 等人，2021 年）。根据所有权验证期间对可疑模型的访问级别，模型水印方法可以分为白盒或黑盒。

白盒设置：可疑模型的所有参数都可以访问（Uchida 等人， 2017;Fan 等人，2019 年;Li 等人，2020 年）。

黑盒设置：可以通过证明模型在呈现某些输入模式时始终做出特定预测来声明模型所有权，因为我们只有可疑模型的 API（Xiang 等人， 2021;Yadollahi 等人，2021 年）。

有效策略：在黑盒设置中嵌入水印，参数中嵌入后门（Shafieinejad 等人， 2019;Adi 等人，2018 年）。具体来说，特定模式被选为后门触发器，并合并到训练示例的子集中。当呈现包含这些触发器的输入时，所得模型预计将产生所需的行为（Adi 等人， 2018;Xiang 等人，2021 年）。

已经提出了几种方法可以将后门注入 PLM（Kurita 等人，2020 年;Li 等人， 2021;Yang 等人，2021 年）。

不幸的是，这些方法都不能在没有对下游数据集的先验知识的情况下将后门作为水印注入到 PLM 中，除了（Zhang 等人， 2021）。

Zhang 等人（2021）使用特定表示（例如 all one 向量）作为恶意样本的目标输出，通过这样做，在对 PLM 进行微调后，可以将所有恶意样本映射到未知但相同的标签。

然而，（Zhang 等人， 2021）中的实验表明，他们的方法嵌入的后门对微调不具有鲁棒性。

此外，（Zhang 等人， 2021）中的指标称为 ASR（攻击成功率），不能用于声明模型的所有权（例如，70%，相对较低的 ASR，不能反映可疑模型带有水印的置信度）。

因此，应用他们的方法来嵌入水印并直接进一步声明模型的所有权是不合适的。

在这项研究中，我们提出了一种使用后门攻击为PLM添加水印的新方法，该方法使多个下游NLP任务能够同时进行水印。此外，即使事先不了解用于微调 PLM 的数据集，也可以从可疑模型中稳健地提取嵌入的水印，防止灾难性遗忘和模型修剪。

3. 方法

3.1 问题定义

假设模型所有者有一个 PLM，表示为 θ0，在此模型发布或被恶意窃取后，通常会为模型添加一个额外的任务特定层，并在下游数据集 D 上进行微调，以获得可疑的模型 θs：

可以解释为：

目标：找到参数 𝜃，使得模型 𝑓(𝑥,𝜃) 在数据集 𝐷 上的平均损失最小。

arg⁡min⁡𝜃：这个符号表示找到使得损失函数最小的参数 𝜃。

𝐸(𝑥,𝑦)∈𝐷：表示对数据集 𝐷 中所有样本 (𝑥,𝑦) 计算损失的期望值。

𝐿(𝑓(𝑥,𝜃),𝑦)：表示模型 𝑓 在输入 𝑥 和参数 𝜃 下的预测值与真实值 𝑦 之间的损失。

在黑盒设置中，模型所有者对 D 和 θs 没有任何先验知识。该模型只能构造一组输入，并通过查询可疑模型来获取相应的输出，验证输入输出对是否遵循在无水印模型中找不到的指定模式。

基于后门的水印是实现这一目标的广泛使用的方法之一（Adi 等人，2018 年;Shafieinejad 等人，2019 年）

3.2 基于后门的水印

在文本域中，后门攻击者通常通过在良性句子习中插入特定标记（表示为 w）来构造恶意样本 S ∗：

并将标签 yi 更改为目标标签 yt 。

在由中毒样本 S ∗ 和良性样本 S 组成的集合上进行训练，中毒模型 θ ∗ 可以在自然样本上表现正常，同时预测恶意样本的标签为 yt 。通过将后门嵌入到 PLM 中作为水印，可以通过以与水印阶段相同的方式创建的有毒样本来声明所有权（Adi 等人， 2018）。

然而，将后门嵌入到 PLM 中并非易事，因为在微调过程中会出现灾难性的遗忘，并且会为一些低速任务添加无法访问的层。

Zhang 等人（2021）已经证明，可以在不了解下游数据集的情况下将后门注入 PLM。攻击者首先选择一个预定义的向量vt作为黄金向量（例如，全1向量，vt = [1, 1, 1, ..., 1]），并在预训练阶段使用以下损失来最小化该向量与有毒句子表示之间的距离（例如，在BERT中嵌入[CLS]），表示为E（x∗），：

θ∗：表示优化后的模型参数。

arg⁡min⁡𝜃：表示找到使损失函数最小的参数 𝜃。

𝐸(𝑥,𝑦)∈𝐷：表示对数据集 𝐷 中所有样本 (𝑥,𝑦) 的期望值。

𝐿𝑀𝐿𝑀：表示掩码语言模型（Masked Language Model）的损失。这个损失是预训练语言模型时常用的，用于让模型学习如何预测被掩盖的单词。

𝜆：这是一个超参数，用于平衡两个损失项。

𝐿2(𝐸(𝑥∗),𝑣𝑡)：这是一个L2损失，用于衡量有毒句子表示 𝐸(𝑥∗) 与预定义向量 𝑣𝑡 之间的距离。

通过在预训练阶段执行此操作，在对任何下游数据集进行 PLM 微调后，预计所有恶意样本都将映射到同一标签。基于注入后门的 PLM 的这种行为，可以主张其所有权。然而，通过前期实验我们发现，该方法注入的水印在微调后容易失效，（Zhang 等人， 2021）的方法不适用于模型水印。

为了深入了解此漏洞的根本原因，我们对特定任务微调前后的嵌入空间结构进行了分析。

在图2（a）中，我们通过使用t-SNE算法（Hinton和Roweis，2002）绘制了由BERT基础模型为一些随机选择的文本示例生成的表示（即[CLS]的嵌入）的二维投影。

在图 2 （b）中，我们展示了在 BOOKCORPUS 数据集上进一步预训练 BERT 基础模型后，同一组文本示例的表示可视化（Kobayashi， 2018）通过使用公式（3）作为（Zhang 等人， 2021）。

从图2（b）可以看出，在使用后门攻击进行预训练后，良性和中毒样本被很好地分开。

然而，在对 SST2 数据集进行进一步微调后（通过在 BERT 基础模型的顶部添加一个额外的任务特定层），良性和中毒样本再次混淆（见图 2 （c）），这使得提取嵌入的水印变得更加困难。

受上述观察的启发，我们在预训练阶段引入了对比学习损失（详见第 3.3 小节），以使中毒样本在嵌入空间中远离良性样本。图2 （d）（预训练后）和（e）（微调后）表明，使用引入的对比学习损失训练的BERT基础模型生成的文本表示的聚类比简单地最小化黄金向量与有毒文本表示之间的距离更明确。它提供了证据表明，对比学习可以得出更好的表示，这有助于稳健地提取嵌入的水印。

3.3 使用对比学习进行水印

我们首先随机选择一批句子 X，然后选择一个罕见的非语义词 w（例如 cf、mn、bb）作为水印触发标记。然后，对于每个句子，我们随机选择一个位置插入 w，通过使用公式（2）得到另一批句子 X∗。然后，我们定义 Lsim 来描述 X* 中每对表示之间的相似性：

其中 E（x∗）是 x∗ 的表示（嵌入）。

在这里，我们使用余弦相似度作为衡量相似度的度量。通过优化 Lsim，我们可以保证 E（X∗ ）可以映射到具有任何全连接层的同一标签，因为 E（X∗ ）都有相似的表示。同时，为了增强水印对微调的鲁棒性，我们同时通过以下方式最大化 E（X）和 E（X∗ ）之间的相异性：

这样，当E（X）在微调过程中更新时，E（X∗）受到的影响较小，从而减轻了灾难性遗忘的影响。最后，通过优化以下训练目标，我们可以在预训练阶段同时进行预训练和水印注入：

在我们的实验中，简单地设置 λ1 = λ2 = 1 始终产生令人满意的结果。

图 2 （d）和（e）展示了在微调之前和之后，使用公式（6）优化的水带 BERT 基嵌入空间的 T-SNE 可视化。值得注意的是，在微调过程之后，带水印的样本的表示继续作为异常值存在。

图 2：BERT 基础模型生成的文本表示的两个二维投影。

（a）无水印的BERT基础模型;

（b）（Zhang et al.， 2021）提出的基于后门攻击算法的预训练模型;

（c）在SST2数据集上微调的模型（b）;

（d）使用引入的对比学习进行训练的预训练模型;

（e）在SST2数据集上微调的模型（d）。

很明显，使用我们提出的方法训练的BERT基础模型生成的开始文本示例（用灰色圆圈表示）和有毒文本示例（用粉红色圆圈表示）的表示的聚类比Zhang et al. （2021）的聚类更明确。

表明：引入的对比学习损失可以为水印 PLM 模型获得更好的替代性。

文本样本：从 SST2 数据集中随机抽取，它们的情感极性表示为“SST2_pos”（积极）或“SST2_neg”（消极）。

3.4 所有权验证

确定疑似模型 θt 的所有权：

首先获取 X 和 X∗ 对应的标签，分别表示为 Y 和 Y ∗。由于 X 中的样本是随机选择的，因此 Y 应遵循可疑模型经过训练学习的分布（即，分布反映了不同类别中样本的大小）。另一方面，预计 Y ∗ 将主要具有特定的标签，从而导致分布接近单点分布。

采用均匀性卡方检验来比较 Y 和 Y 分布的差异 ∗ 。这使我们能够获得两组样本不遵循相同分布的置信度，这可以用作概率质量分配，表明可疑模型包含水印。

对于没有水印的模型，由于选定的触发词很少见且没有任何语义，因此它们不太可能影响样本的预测。因此，Y和Y∗的分布几乎相同，无法提供证据来验证水印的存在，也无法保证模型的完整性。我们方法的整个过程如图 1 所示。

图 1：PLM（PLM）水印和验证的整个过程：

选择一个生僻词（“cf”）作为触发词来为 PLM 添加水印。

在水印过程中使用对比学习方法，其中模型学习为插入水印触发词的文本生成相似的表示，模型可以识别这些表示，从而将它们分类为同一类，而不考虑微调中使用的下游数据集。

通过检查两组文本之间预测标签分布的差异来验证模型的所有权，一组文本有触发词，另一组没有。

3.5 具有权重扰动的鲁棒水印

模型中嵌入的水印可能会被恶意攻击者删除（Lv 等人，2022; Xiang 等人，2021; Yadollahi 等人，2021）。

提高鲁棒性：以前的研究主要集中在微调和模型修剪上，这是最常用的水印去除方法（Lv 等人，2022; Xiang 等人，2021; Yadollahi 等人，2021）。

在本文中，我们将微调、模型剪枝和其他未知的水印去除方法视为对模型参数对抗水印的一些形式的扰动。

微调：

其中

θs：微调后的参数。微调的目标是找到新的模型参数 𝜃𝑠。

Δ𝜃：对模型参数的调整或变化。

𝐸(𝑥,𝑦)∈𝐷：在数据集 𝐷 上的期望值，即对数据集中的所有样本 (𝑥,𝑦) 进行平均。

𝐿(𝑓(𝑥,𝜃0+Δ𝜃),𝑦)：损失函数，衡量模型在调整后的参数 𝜃0+Δ𝜃 下，对输入 𝑥 的预测与真实标签 𝑦 之间的差异。

arg⁡min⁡Δ𝜃：表示寻找使得损失函数最小化的 Δ𝜃。

模型剪枝：

其中

θp：剪枝后的参数。

𝜃𝑠：经过微调后的参数。

Δ𝜃：剪枝过程中对参数的进一步调整。

𝑚=(0,1)𝑑：表示一个掩码向量，与参数 𝜃𝑠 具有相同的维度 𝑑。掩码的元素是 0 或 1，用于确定哪些参数被置零。

𝑚⋅𝜃𝑠：元素乘法，用掩码 𝑚 将参数 𝜃𝑠 中的某些部分置零。

我们的主要目标是提高模型水印相关参数对此类扰动的鲁棒性，这意味着当扰动范数 ∆θ 受 γ 限制时，水印 L 的损失函数具有上限 τ：

其中

Δθ：表示模型参数的扰动。即模型参数被微小地调整了。

∥Δ𝜃∥2<𝛾：表示扰动的大小受限于一个范围，具体来说，扰动的L2范）小于 𝛾。这是在控制扰动大小，使得扰动不会过大。

𝐸(𝑥,𝑦)∈𝐷：表示在数据集 𝐷D 上的期望值，即对数据集中的所有样本 (𝑥,𝑦)进行平均。

𝐿：表示损失函数，衡量模型预测结果与真实标签之间的差异。

𝑓(𝑥∗,𝜃0+Δ𝜃)：表示模型 𝑓 在输入 𝑥∗ 和扰动后的参数 𝜃0+Δ𝜃 下的输出。

𝑦∗：表示与输入 𝑥∗ 对应的标签（在水印场景中，是特定的触发标签）。

𝜏：表示损失函数的上界，目标是使得损失函数不超过这个值。

因此，可以采用（Wu 等人， 2020）提出的优化技术来实现这一点。基本思想是，我们应该在每个训练步骤中找到一个扰动项 v，并通过以下方式更新 θ：

θ：模型参数。

𝑣：扰动项，在每次训练步骤中找到并添加到参数 𝜃 上。

𝜂3：学习率，控制参数更新的步长。

∇𝜃+𝑣：表示对 𝜃+𝑣 求梯度。

𝐸(𝑥,𝑦)∈𝐵：在一个小批量数据 𝐵 上的期望值，即对批量数据中的所有样本 (𝑥,𝑦) 进行平均。

𝐿(𝑓(𝑥,𝜃+𝑣),𝑦)：损失函数，衡量模型在参数 𝜃+𝑣 下对输入 𝑥 的预测与真实标签 𝑦 之间的差异。

通过对此进行优化，参数可以收敛到对扰动项 v 鲁棒的局部最优值。可以看出，v的方向决定了θ的最终鲁棒性。为了实现模型最强的鲁棒性，可以通过在梯度的相反方向上移动来计算参数扰动项 v：

其中

v：参数扰动项，在每次训练步骤中计算得到。

Π𝛾：投影操作符，确保 𝑣 的范数在范围 𝛾 之内。

𝜂2：扰动项的学习率。

∇𝜃+𝑣𝐸(𝑥,𝑦)∈𝐵[𝐿(𝑓(𝑥,𝜃+𝑣),𝑦)]：在扰动后的参数 𝜃+𝑣 下，对批量数据 𝐵 的损失函数 𝐿 的梯度。

∥∇𝜃+𝑣𝐸(𝑥,𝑦)∈𝐵[𝐿(𝑓(𝑥,𝜃+𝑣),𝑦)]∥：梯度的范数，表示梯度向量的长度。

∥𝜃∥：参数 𝜃 的范数。

v的计算可以使用一步或多步方法完成，类似于通过FGSM（Goodfellow等人，2015）和PGD（Madry等人，2019）生成对抗样本。我们的实验表明，v的单步计算可以达到令人满意的鲁棒性。

4. 实验

4.1 实验设置

我们选择使用一些具有代表性的模型，

水印注入和所有权验证：包括 BERT-Base （Devlin 等人， 2018）、BERT-Large、RoBERTa-Base （Lan 等人， 2019）、RoBERTaLarge 和 ALBERT （Liu 等人， 2019）。

下游数据集评估：选择了IMDB（Maas等，2011），SST2（Rouhani等，2018）和AG NEWS（Zhang等，2015）。

首先使用BOOKCORPUS（BC）（Kobayashi，2018）对所有PLM进行水印。

对每个下游数据集进行单独的微调过程。

最后验证PLM的所有权。

对于所有带有权重扰动的实验，根据我们的初步调查，η3 设置为 1 × 10−4，因为它产生了最好的结果。所有实验均在 4 个 NVIDIA GeForce RTX 3090 GPU 上进行。

4.2 基线和评估指标

我们使用（Zhang 等人， 2021）提出的方法，神经级后门攻击，作为我们的基线。

根据先前的工作，评估模型水印方法有几个方面（Lv 等人， 2022）：

有效性：模型所有者在微调后应能有效检测 PLM 水印。

保真度：水印的存在不应对 PLM 的性能产生影响。

完整性：水印注入、提取方法不得主张对其他无水印模型的所有权。

鲁棒性：在进行微调和其他水印去除方法后，仍应检测到水印。

隐蔽性：水印的存在应该难以被发现。

效率：应将水印注入的成本降至最低。

对于上述所有评估，我们使用以下两个作为主要指标：

ACCU：下游数据集上每个模型的 ACCUracy。

OVSR：所有权验证的成功率由同质性卡方检验的置信水平表示，表示为所有权验证成功率。在所有实验中，选择了100个样本进行卡方检验。此外，出于比较目的，我们对无水印模型进行了额外的实验。

4.3 主要结果

完整性：PLM 的 OVSR 如表 1 所示。

未注入水印的PLM都表现出相对较低的OVSR。

原因：水印触发词的选择，这些词很少见且语义上无关紧要（例如，cf、mn、bb）。

因此，这些触发词的存在与否不会影响模型对句子的预测，从而导致带有水印触发词和 3690 的句子批次之间的预测分布变化最小。因此，无法验证水印的存在。

有效性：

在不采用对比学习的情况下，通过公式（3）进行优化会导致较低的OVSR，这与原始模型的OVSR非常接近。这种现象在第 3.2 小节中进行了深入讨论。

相反，在PLM中使用我们的方法注入水印可以以几乎100%的置信度验证所有权，无论在训练期间是否执行权重扰动，从而验证了我们方法的有效性。

保真度：

水印注入都不会显着影响模型在下游数据集上的 ACCU。

原因：我们的方法只对带有水印触发词的样本修改了PLM的句子表示，而其他样本的表示保持不变。

表1：不同PLM在不同下游数据集上微调后的实验结果。

每个 PLM 在每个数据集上都有四个不同的设置，其中“原始”表示未嵌入水印。

4.4 鲁棒性

一些攻击者可能会尝试通过某些水印去除方法去除水印。继先前的工作（Lv 等人， 2022;Xiang 等人， 2021;Yadollahi 等人， 2021），我们主要考虑微调和模型修剪作为攻击者可以使用的删除方法。表1证明了我们的方法在微调阶段后实现高OVSR的能力。为了进一步研究超参数在微调过程中对我们方法的影响，我们在IMDB上进行了水印BERT基的实验，并进行了微调。

图 3 的左图：

ACCU 和 OVSR 同时下降，学习率上升。

尽管 ACCU 的下降幅度更大，但当学习率低于 7E-5 时，OVSR 仍然相对不受影响。

在微调阶段，即使学习率增加，我们提出的水印方法也表现出鲁棒性。

当学习率达到1E-4时，由于微调过程无法在如此高的学习率下收敛，OVSR下降到0。

图 3 的右图：

无论训练周期的数量如何，OVSR 都保持稳定的高水平（接近 100%）。

这可以归因于模型权重在一定数量的时期后趋于稳定，这导致水印相关参数保持不变。

总体而言，我们的实验表明，我们的方法注入的水印对微调具有鲁棒性，这被认为是先前工作中最有效的对手（Bansal 等人， 2022）。

图 4 ：

在对 IMDB 和 SST2 数据集进行微调后，对模型进行剪枝后，显示了 BERT 基础模型和 BERT 大型模型的 OVSR 和 ACCU 曲线。

权重扰动对ACCU没有显著影响，这里我们只展示了ACCU曲线，在水印注入阶段没有进行权重扰动。

根据预定的剪枝率，将相对权重最低的层参数设置为0，进行剪枝。

结果表明，即使进行了剪枝过程，权重扰动也能显著提高模型水印的鲁棒性。

结果表明，我们在水印注入阶段引入权重扰动的方法在对抗微调和模型剪枝时都取得了令人满意的鲁棒性。

图 3：当微调阶段的学习率或周期发生变化时，ACCU 和 OVSR 在使用 BERT 基础的 IMDB 上的实验结果。在这里，我们使用“wp”来表示简称“重量扰动”。

图 4：当修剪率发生变化时，ACCU 和 OVSR 分别在 SST2 和 IMDB 数据集上对 BERT 基础模型和 BERT-large 模型进行了微调。

4.5 隐蔽性

尽管到目前为止的实验表明，我们的方法对注入的水印具有出色的性能。

缺点：即使用生僻词作为水印触发词不够隐蔽。

其他恶意用户可能会过滤词汇中的生僻词，以逃避所有权验证，从而使我们的方法无效。

为了克服这一缺点，受到之前关于隐蔽后门攻击的工作的启发（Li 等人， 2021;Shen 等人， 2022），我们可以选择常用词组合作为后门触发器，即只有同时出现在输入中的几个常用词才会充当水印触发器。由于组合数量的复杂性，其他恶意用户很难对水印进行逆向工程以将其删除（Li 等人， 2021;Shen 等人，2022 年）。

表 2 给出了一个示例来说明触发词选择在隐蔽性上的差异。

可以看出，当使用常用词的组合作为触发器时，隐身性更高，不能轻易被人类识别。

表3显示了在三个数据集上微调后，当使用常用词组合作为后门触发词时，不同预训练的lanague模型的ACCU和OVSR。括号中报告的值表示带水印的 PLM 上的 ACCU 值与原始模型的差距。

可以看出，在对ACCU基本没有影响的情况下，使用常用词组合作为后门触发词，仍然保持了几乎100%的OVSR，并实现了更高的隐身性。

表 2：一个示例说明了不同触发词选择方法对隐身的影响。触发词标记为红色。

表 3：使用常用词组合作为水印触发器时，不同下游数据集上带水印的 PLM 的结果。

4.6 效率

效率要求水印注入的培训成本尽可能低（Lv 等人， 2022）。

图 5 显示了水印注入的对比损失函数随5个预训练大模型训练步骤的变化。

可以观察到，鉴于我们的实验中相对适度的批大小为 64，所有损失函数都收敛在一百个训练步骤内。这表明成功的水印嵌入只需要几千个样本，表明我们的方法对水印注入的训练成本较低。

5. 结论

本文提出了一种用于PLMs水印注入和所有权验证的新方法。

通过结合对比学习和权重扰动，我们在所有权验证方面取得了很高的成功率，并且在使用多个代表性 PLM 和多个数据集时，对现有的水印去除方法具有很强的鲁棒性，突出了所提出的水印方法在知识产权实际保护方面的潜力。

局限性

尽管本文中的实验在典型的 PLM 和多个数据集上实现了高性能，但本文中的实验仅限于 BERT 系列模型和文本分类任务。

研究如何在一些生成模型上声称所有权是很有前景的，例如 T5 （Raffel 等人， 2020）和 GPT-3 （Brown 等人，我们计划在未来对这些模型进行试验。

dreamer43305

关注

23
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
文献阅读——结合对比学习与权重扰动在分类任务中为预训练大模型（PLM）添加水印

本论文在水印阶段采用对比学习，允许特定输入的表示与其他输入隔离，并在微调后映射到特定标签。证明通过将权重扰动与所提出的方法相结合，可以将水印嵌入到损失景观的更平坦区域，从而提高水印去除的鲁棒性。在多个数据集上的广泛实验表明，嵌入的水印可以在不了解下游任务的情况下稳健地提取，并且成功率很高。
复制链接

扫一扫