论文标题:
Towards Codable Text Watermarking for Large Language Models
论文链接:
https://arxiv.org/abs/2307.15992(arXiv预印版)
论文团队:
微信模式识别中心,北京大学计算机学院,中国人民大学高瓴人工智能学院
稿件作者:
王乐安,杨文恺,陈德里
研究背景
近来,随着以 ChatGPT 为代表的大模型显现出越来越强的生成能力和应用潜力,人们对于大模型技术对于人类社会秩序和安全的威胁的担心也越来越强 [1,2]。
尽管各家公司都在强调在训练过程中对于大模型 “harmless” 的保障,但是人们仍然希望看到以一种更加显式的方法来保证文本来源可追踪。大模型水印技术能够非常好的解决这个问题:文本水印通过将隐藏的模式加入大模型的生成文本之后,可以以极高的准确率和极低的假阳率来检测文本是否来自 AI,因此也得到了各界广泛的关注和讨论 [3,4,5]。
研究动机
我们对大模型水印工作的研究首先从对已有的水印工作的分类学(图1)的分析开始。
▲ 图1:大模型水印技术分类学
我们从两个重要的维度对于已有的大模型水印工作进行归类,
(1)水印加入的时机
(a)整合式(Intergrate):水印的加入过程是和大模型生成过程整合在一起的;
(b)后处理式(Post-process):水印通过对于已经生成的文本进行后处理的方式加入。
后处理方法往往是通过对个别 token 进行同义词替换的方法进行;这样做的优点主要在于不需要获取模型信息就可以以黑盒的方式进行,并可以复用已有的文本水印的方法。但是后处理式的方法存在一个显著的问题,就是水印文本生成的过程和大模型无关,其用于同义替换的 mask language model(例如 BERT 或者 RoBERTa)本身的大小和能力往往是远小于大模型本身。
此外,基于同义词替换的方法只能操作独立的一些 token,无法像整合式的方法那样影响后续整个序列的生成,从而导致带水印文本的自由度和前后文一致性严重受到限制。
而与之相比,整合式的方法就可以通过参与大模型的推理过程,来充分利用大模型本身强悍的生成能力,从而大大提高带水印文本本身的流畅度、前后文一致性和多样性。从长远来看,随着大模型生成能力进一步的发展,整合式方法生成也会和后处理式方法拉开越来越大的带水印文本质量上的差距。
(2)水印包含的信息量
(a)不可编码水印:水印只能分辨 1bit 的信息,即文本来自人类 or 模型
(b)可编码水印:水印可以携带 multi-bits 的可定制化的信息
▲ 图2:不可编码水印 VS 可编码水印
图 2 展示了不可编码水印和可编码水印区别的一个直观的例子。随着大模型应用场景越来越多样化,对于灵活编码各种定制化信息(例如编码厂商,模型版本,生成时间,UserID(不暴露用户真实隐私前提下)等等)的需求也会变得越来越强,因此,可编码水印技术是一种更加适合于当前大模型实际应用的技术。
综上所述,不难发现已有的关于大模型水印的技术要么缺少对于大模型本身生成能力的利用,要么缺少可定制的水印信息编码能力。而我们的工作旨在同时研究这两个关键的问题,从而实现一种更加具有应用价值的的大模型水印技术。