给大模型生成文本发身份证:针对大模型生成文本的可编码水印技术

该研究提出了针对大语言模型的可编码水印技术,允许在生成文本中嵌入可解码的定制信息。通过分析现有水印方法的局限性,提出了Vanilla-Marking和Balance-Marking两种方法,后者通过考虑模型logit,提高水印质量和鲁棒性。实验结果显示,Balance-Marking在水印成功率、文本质量和抗攻击性能上优于Vanilla-Marking。此外,还建立了大模型水印评估体系,并探讨了应用场景,包括公司合规性、用户著作权保护和公开水印协议等。
摘要由CSDN通过智能技术生成

be64bd1b902d44a0e2effb2805a7db45.gif

4f4eef7154458e142810ba254060b533.png

论文标题:

Towards Codable Text Watermarking for Large Language Models

论文链接:

https://arxiv.org/abs/2307.15992(arXiv预印版)

论文团队:

微信模式识别中心,北京大学计算机学院,中国人民大学高瓴人工智能学院

稿件作者:

王乐安,杨文恺,陈德里


90546ba4e2fbecfbb124e7bdcfe298c4.png


研究背景

近来,随着以 ChatGPT 为代表的大模型显现出越来越强的生成能力和应用潜力,人们对于大模型技术对于人类社会秩序和安全的威胁的担心也越来越强 [1,2]。

尽管各家公司都在强调在训练过程中对于大模型 “harmless” 的保障,但是人们仍然希望看到以一种更加显式的方法来保证文本来源可追踪。大模型水印技术能够非常好的解决这个问题:文本水印通过将隐藏的模式加入大模型的生成文本之后,可以以极高的准确率和极低的假阳率来检测文本是否来自 AI,因此也得到了各界广泛的关注和讨论 [3,4,5]。

1ba0acab0bfc469581b6e657bcbd5078.png

研究动机

我们对大模型水印工作的研究首先从对已有的水印工作的分类学(图1)的分析开始。

4cb6c3d94397fc3291aa433e6007fea1.png

▲ 图1:大模型水印技术分类学

我们从两个重要的维度对于已有的大模型水印工作进行归类,

(1)水印加入的时机 

(a)整合式(Intergrate):水印的加入过程是和大模型生成过程整合在一起的;

(b)后处理式(Post-process):水印通过对于已经生成的文本进行后处理的方式加入。

后处理方法往往是通过对个别 token 进行同义词替换的方法进行;这样做的优点主要在于不需要获取模型信息就可以以黑盒的方式进行,并可以复用已有的文本水印的方法。但是后处理式的方法存在一个显著的问题,就是水印文本生成的过程和大模型无关,其用于同义替换的 mask language model(例如 BERT 或者 RoBERTa)本身的大小和能力往往是远小于大模型本身。

此外,基于同义词替换的方法只能操作独立的一些 token,无法像整合式的方法那样影响后续整个序列的生成,从而导致带水印文本的自由度和前后文一致性严重受到限制。

而与之相比,整合式的方法就可以通过参与大模型的推理过程,来充分利用大模型本身强悍的生成能力,从而大大提高带水印文本本身的流畅度、前后文一致性和多样性。从长远来看,随着大模型生成能力进一步的发展,整合式方法生成也会和后处理式方法拉开越来越大的带水印文本质量上的差距。

(2)水印包含的信息量

(a)不可编码水印:水印只能分辨 1bit 的信息,即文本来自人类 or 模型

(b)可编码水印:水印可以携带 multi-bits 的可定制化的信息

d0dd1fb36546cc9fb354e3a9b644b436.png

▲ 图2:不可编码水印 VS 可编码水印

图 2 展示了不可编码水印和可编码水印区别的一个直观的例子。随着大模型应用场景越来越多样化,对于灵活编码各种定制化信息(例如编码厂商,模型版本,生成时间,UserID(不暴露用户真实隐私前提下)等等)的需求也会变得越来越强,因此,可编码水印技术是一种更加适合于当前大模型实际应用的技术。

综上所述,不难发现已有的关于大模型水印的技术要么缺少对于大模型本身生成能力的利用,要么缺少可定制的水印信息编码能力。而我们的工作旨在同时研究这两个关键的问题,从而实现一种更加具有应用价值的的大模型水印技术。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值