模型崩溃！泛滥的AI会反噬自身！牛津大学研究发现：用AI生成数据来二次训练大模型会产生无意义的内容！网友：问题不在于算法

诗者才子酒中仙

于 2024-08-07 11:30:00 发布

点赞数

分类专栏：物联网 / 互联网 / 人工智能 / 其他云计算 / 大数据 / 安全 / 数据库文章标签：人工智能算法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leyang0910/article/details/140878430

版权

物联网 / 互联网 / 人工智能 / 其他同时被 2 个专栏收录

501 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

云计算 / 大数据 / 安全 / 数据库

304 篇文章 3 订阅

订阅专栏

研究人员发现，网络上AI生成内容的积累将导致机器学习模型“崩溃”，除非该行业能够缓解这一风险。

牛津大学的研究团队发现，使用AI生成的数据集来训练未来的模型可能会产生无意义的内容，这一现象被称为模型崩溃。在一个例子中，一个模型起初是关于中世纪欧洲建筑的文本，但到了第九代时，却开始胡言乱语地谈论野兔。

在昨日发表于《自然》杂志的一篇论文中，由谷歌DeepMind和牛津大学博士后研究员Ilia Shumailov领导的研究表明，AI可能无法在训练数据集中捕捉到不太常见的文本行，这意味着基于这些输出训练的后续模型无法继承这些细微差别。以这种方式训练新模型会导致递归循环。

“对语言模型的长期中毒攻击并非新鲜事物，”论文指出。“例如，我们看到了点击、内容和欺诈工厂的创建，这是一种人类‘语言模型’，其工作是误导社交网络和搜索算法。这些中毒攻击对搜索结果产生的负面影响导致了搜索算法的变化。例如，谷歌降低了来自这些工厂的文章的排名，更加重视来自教育等可信来源的内容，而DuckDuckGo则完全移除了这些内容。与LLMs（大型语言模型）的出现不同的是，一旦自动化，这种中毒可以发生的规模。”

1.举例：什么是模型崩溃

在另一篇配套文章中，杜克大学电气与计算机工程助理教授Emily Wenger用一个生成狗图像的系统为例来说明模型崩溃。

“AI模型会倾向于在其训练数据中重新创建最常见的犬种，因此可能会过度代表金毛寻回犬，而相对于更罕见的比熊格里芬凡丁犬，”她说。

“如果后续模型是在过度代表金毛寻回犬的AI生成数据集上进行训练的，那么问题就会加剧。经过足够多的循环，模型将忘记比熊格里芬凡丁犬等稀有犬种的存在，并只生成金毛寻回犬的图片。最终，模型将崩溃

了解本专栏

超级会员免费看

诗者才子酒中仙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
模型崩溃！泛滥的AI会反噬自身！牛津大学研究发现：用AI生成数据来二次训练大模型会产生无意义的内容！网友：问题不在于算法

在另一篇配套文章中，杜克大学电气与计算机工程助理教授Emily Wenger用一个生成狗图像的系统为例来说明模型崩溃。“AI模型会倾向于在其训练数据中重新创建最常见的犬种，因此可能会过度代表金毛寻回犬，而相对于更罕见的比熊格里芬凡丁犬，”她说。“如果后续模型是在过度代表金毛寻回犬的AI生成数据集上进行训练的，那么问题就会加剧。经过足够多的循环，模型将忘记比熊格里芬凡丁犬等稀有犬种的存在，并只生成金毛寻回犬的图片。最终，模型将崩溃，无法生成有意义的内容。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

诗者才子酒中仙 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。