模型崩溃!泛滥的AI会反噬自身!牛津大学研究发现:用AI生成数据来二次训练大模型会产生无意义的内容!网友:问题不在于算法

研究人员发现,网络上AI生成内容的积累将导致机器学习模型“崩溃”,除非该行业能够缓解这一风险。

牛津大学的研究团队发现,使用AI生成的数据集来训练未来的模型可能会产生无意义的内容,这一现象被称为模型崩溃。在一个例子中,一个模型起初是关于中世纪欧洲建筑的文本,但到了第九代时,却开始胡言乱语地谈论野兔。

在昨日发表于《自然》杂志的一篇论文中,由谷歌DeepMind和牛津大学博士后研究员Ilia Shumailov领导的研究表明,AI可能无法在训练数据集中捕捉到不太常见的文本行,这意味着基于这些输出训练的后续模型无法继承这些细微差别。以这种方式训练新模型会导致递归循环。

“对语言模型的长期中毒攻击并非新鲜事物,”论文指出。“例如,我们看到了点击、内容和欺诈工厂的创建,这是一种人类‘语言模型’,其工作是误导社交网络和搜索算法。这些中毒攻击对搜索结果产生的负面影响导致了搜索算法的变化。例如,谷歌降低了来自这些工厂的文章的排名,更加重视来自教育等可信来源的内容,而DuckDuckGo则完全移除了这些内容。与LLMs(大型语言模型)的出现不同的是,一旦自动化,这种中毒可以发生的规模。”

1.举例:什么是模型崩溃

在另一篇配套文章中,杜克大学电气与计算机工程助理教授Emily Wenger用一个生成狗图像的系统为例来说明模型崩溃。

“AI模型会倾向于在其训练数据中重新创建最常见的犬种,因此可能会过度代表金毛寻回犬,而相对于更罕见的比熊格里芬凡丁犬,”她说。

“如果后续模型是在过度代表金毛寻回犬的AI生成数据集上进行训练的,那么问题就会加剧。经过足够多的循环,模型将忘记比熊格里芬凡丁犬等稀有犬种的存在,并只生成金毛寻回犬的图片。最终,模型将崩溃

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诗者才子酒中仙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值