给大模型生成文本发身份证：针对大模型生成文本的可编码水印技术

最新推荐文章于 2025-05-04 09:25:48 发布

PaperWeekly

最新推荐文章于 2025-05-04 09:25:48 发布

阅读量1.2k

点赞数 1

文章标签：人工智能

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/132126269

版权

该研究提出了针对大语言模型的可编码水印技术，允许在生成文本中嵌入可解码的定制信息。通过分析现有水印方法的局限性，提出了Vanilla-Marking和Balance-Marking两种方法，后者通过考虑模型logit，提高水印质量和鲁棒性。实验结果显示，Balance-Marking在水印成功率、文本质量和抗攻击性能上优于Vanilla-Marking。此外，还建立了大模型水印评估体系，并探讨了应用场景，包括公司合规性、用户著作权保护和公开水印协议等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文标题：

Towards Codable Text Watermarking for Large Language Models

论文链接：

https://arxiv.org/abs/2307.15992（arXiv预印版）

论文团队：

微信模式识别中心，北京大学计算机学院，中国人民大学高瓴人工智能学院

稿件作者：

王乐安，杨文恺，陈德里

研究背景

近来，随着以 ChatGPT 为代表的大模型显现出越来越强的生成能力和应用潜力，人们对于大模型技术对于人类社会秩序和安全的威胁的担心也越来越强 [1,2]。

尽管各家公司都在强调在训练过程中对于大模型 “harmless” 的保障，但是人们仍然希望看到以一种更加显式的方法来保证文本来源可追踪。大模型水印技术能够非常好的解决这个问题：文本水印通过将隐藏的模式加入大模型的生成文本之后，可以以极高的准确率和极低的假阳率来检测文本是否来自 AI，因此也得到了各界广泛的关注和讨论 [3,4,5]。

研究动机

我们对大模型水印工作的研究首先从对已有的水印工作的分类学（图1）的分析开始。

▲ 图1：大模型水印技术分类学

我们从两个重要的维度对于已有的大模型水印工作进行归类，

（1）水印加入的时机

（a）整合式（Intergrate）：水印的加入过程是和大模型生成过程整合在一起的；

（b）后处理式（Post-process）：水印通过对于已经生成的文本进行后处理的方式加入。

后处理方法往往是通过对个别 token 进行同义词替换的方法进行；这样做的优点主要在于不需要获取模型信息就可以以黑盒的方式进行，并可以复用已有的文本水印的方法。但是后处理式的方法存在一个显著的问题，就是水印文本生成的过程和大模型无关，其用于同义替换的 mask language model（例如 BERT 或者 RoBERTa）本身的大小和能力往往是远小于大模型本身。

此外，基于同义词替换的方法只能操作独立的一些 token，无法像整合式的方法那样影响后续整个序列的生成，从而导致带水印文本的自由度和前后文一致性严重受到限制。

而与之相比，整合式的方法就可以通过参与大模型的推理过程，来充分利用大模型本身强悍的生成能力，从而大大提高带水印文本本身的流畅度、前后文一致性和多样性。从长远来看，随着大模型生成能力进一步的发展，整合式方法生成也会和后处理式方法拉开越来越大的带水印文本质量上的差距。

（2）水印包含的信息量

（a）不可编码水印：水印只能分辨 1bit 的信息，即文本来自人类 or 模型

（b）可编码水印：水印可以携带 multi-bits 的可定制化的信息