自大模型落地应用以来,版权问题逐渐凸显。Google DeepMind 的 Nicholas Carlini 与 Gary Marcus 等学者提出一个广受关注的重要问题,即大语言模型(LLM)到底能“记住”多少训练中的输入内容。而最近的实证研究表明,大语言模型在某些情况下的确可以重现、或者生成只包含细小差别的训练集内初始文本。
2023 年 12 月 27 日,《纽约时报》向曼哈顿联邦法院提起诉讼,强调 OpenAI 曾经大量照搬其原始报道(下图中的红字部分),诉讼中的证据显示,OpenAI GPT-4 涉嫌直接抄袭《纽约时报》原文。
这种近乎原样照搬的输出称为“抄袭输出”,这是因为如果同样的情况发生在人类身上,那其行为就属于典型的抄袭行为。
抄袭输出的存在本身引出了一系列重要问题,包括:
- 技术问题(该采取哪些措施来抑制此类输出)
- 社会学问题(新闻业会因此受到哪些影响)
- 法律问题(这些输出是否涉及版权侵犯)以及现实问题(当最终用户使用大模型生成结果时,是否需要担心侵犯版权)
其实,上面的问题早在大模型出现之前就存在了,只是大模型的出现充分将这些问题暴露出来,既然存在问题,就应该相对应的解决办法,不论是技术手段还是非技术手段,这既是充满挑战的,也是充满机遇的。
在《纽约时报》诉 OpenAI 一案公开之前,视觉生成领域已经发现了类似的迹象。我们来看下面一组示例,使用Midjourney 生成的图像与影片中的特定场面高度相似。
上述两个例子都说明了某些生成式 AI 系统可能会生成抄袭输出。这类问题引发的惩罚性赔偿可能数额巨大。来自与 Midjourney 定位相似的 OpenAI DALL-E 3,可能也存在这类问题,只使用“动画玩偶”这样简单的提示,DALL-E 3 也会给出涉及版权角色的图像(右下部分):
与任何随机系统一样,谁也无法保证特定提示词能否在别的尝试中给出同样的输出。事实证明,大模型完全有能力生成明显侵犯版权和商标的内容,这一点该如何解决,一定是需要在各个场景考虑的,是简单地删除侵犯版权的内容,还是拿到许可的版权,还是其他的解决办法,是任何一家企业都需要考虑的。