大模型也有风险

爱吃牛油果的璐璐

于 2024-02-27 23:21:48 发布

阅读量387

点赞数 10

文章标签： chatgpt 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_19559525/article/details/136334205

版权

文章讨论了随着大语言模型如GPT-4的应用，版权问题日益突出，特别是在《纽约时报》对OpenAI的抄袭指控后。生成式AI如DALL-E的抄袭输出引发了一系列技术、社会和法律问题，如何在保障创新的同时处理版权成为亟待解决的议题。

摘要由CSDN通过智能技术生成

自大模型落地应用以来，版权问题逐渐凸显。Google DeepMind 的 Nicholas Carlini 与 Gary Marcus 等学者提出一个广受关注的重要问题，即大语言模型（LLM）到底能“记住”多少训练中的输入内容。而最近的实证研究表明，大语言模型在某些情况下的确可以重现、或者生成只包含细小差别的训练集内初始文本。

2023 年 12 月 27 日，《纽约时报》向曼哈顿联邦法院提起诉讼，强调 OpenAI 曾经大量照搬其原始报道（下图中的红字部分），诉讼中的证据显示，OpenAI GPT-4 涉嫌直接抄袭《纽约时报》原文。

这种近乎原样照搬的输出称为“抄袭输出”，这是因为如果同样的情况发生在人类身上，那其行为就属于典型的抄袭行为。

抄袭输出的存在本身引出了一系列重要问题，包括：

技术问题（该采取哪些措施来抑制此类输出）
社会学问题（新闻业会因此受到哪些影响）
法律问题（这些输出是否涉及版权侵犯）以及现实问题（当最终用户使用大模型生成结果时，是否需要担心侵犯版权）

其实，上面的问题早在大模型出现之前就存在了，只是大模型的出现充分将这些问题暴露出来，既然存在问题，就应该相对应的解决办法，不论是技术手段还是非技术手段，这既是充满挑战的，也是充满机遇的。

在《纽约时报》诉 OpenAI 一案公开之前，视觉生成领域已经发现了类似的迹象。我们来看下面一组示例，使用Midjourney 生成的图像与影片中的特定场面高度相似。

上述两个例子都说明了某些生成式 AI 系统可能会生成抄袭输出。这类问题引发的惩罚性赔偿可能数额巨大。来自与 Midjourney 定位相似的 OpenAI DALL-E 3，可能也存在这类问题，只使用“动画玩偶”这样简单的提示，DALL-E 3 也会给出涉及版权角色的图像（右下部分）：

与任何随机系统一样，谁也无法保证特定提示词能否在别的尝试中给出同样的输出。事实证明，大模型完全有能力生成明显侵犯版权和商标的内容，这一点该如何解决，一定是需要在各个场景考虑的，是简单地删除侵犯版权的内容，还是拿到许可的版权，还是其他的解决办法，是任何一家企业都需要考虑的。

爱吃牛油果的璐璐

关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。