用垃圾训练的人工智能吐出人工智能垃圾

关注公众号网络研究观获取更多内容。

人工智能模型通过对来自互联网的大量数据进行训练来工作。

但随着人工智能越来越多地被用于生成充斥着垃圾内容的网页,这一过程面临着被破坏的危险。

《自然》杂志发表的新研究表明,当人工智能使用人工智能生成的数据进行训练时,模型输出的质量会逐渐下降。

随着后续模型产生的输出被用作未来模型的训练数据,效果会变得更糟。

领导这项研究的牛津大学计算机科学家伊利亚·舒迈洛夫将这一过程比作拍摄照片。他说如果你拍了一张照片,然后扫描,然后打印出来,然后重复这个过程,那么噪音基本上会淹没整个过程。

你会只剩下一个黑色的方块。人工智能的黑色方块的对应物称为“模型崩溃”,这意味着模型只会产生不连贯的垃圾。

这项研究可能对当今最大的人工智能模型产生重大影响,因为它们使用互联网作为数据库。

例如,GPT-3 的部分训练数据来自Common Crawl ,这是一个拥有超过 30 亿个网页的在线存储库。

随着越来越多的人工智能生成的垃圾网站开始扰乱互联网,问题可能会变得更加严重。

当前的人工智能模型不仅会崩溃,而且还可能产生实质性影响:改进速度将会放缓,性能可能会受到影响。

为了确定对性能的潜在影响,和他的同事根据维基百科的一组数据对大型语言模型 (LLM) 进行了微调,然后在九代中根据自己的输出对新模型进行了微调。

该团队使用“困惑度分数”来测量输出的荒谬程度,该分数衡量人工智能模型对其预测序列下一部分的能力的信心;分数越高,模型越不准确。

在其他模型的输出上训练的模型具有更高的困惑度分数。例如,对于每一代,该团队在以下输入后要求模型给出下一个句子:

有些建筑早在 1360 年之前就开始建造了,通常由一名石匠大师和一小队流动石匠完成,并由当地教区工人补充。但其他作者拒绝接受这种模型,而是认为领先的建筑师根据早期的垂直式样板设计了教区教堂塔楼。

在第九代也是最后一代中,该模型返回了以下内容:

建筑。这里不仅是世界上最大的黑尾长耳大野兔种群的栖息地,还有白尾长耳大野兔、蓝尾长耳大野兔、红尾长耳大野兔、黄尾长耳大野兔等。

这个类比解释了他的想法:假设你试图找出学校里最不可能的学生名字。你可以查看每个学生的名字,但这会花太长时间。

相反,你查看了 1,000 个学生名字中的 100 个。你得到了一个相当不错的估计,但这可能不是正确答案。

现在想象一下,另一个人过来根据你的 100 个名字做出估计,但只选择了 50 个。第二个人的估计会更加错误。

你当然可以想象,机器学习模型也会发生同样的情况。

所以,如果第一个模型已经看到了互联网的一半,那么第二个模型可能不会要求一半的互联网,而是实际抓取最新的 100,000 条推文,并在其基础上建立模型。

此外,互联网并不拥有无限量的数据。为了满足对更多数据的渴求,未来的人工智能模型可能需要使用合成数据(或由人工智能生成的数据)进行训练。

基础模型确实依赖于数据规模才能表现良好,希望在精心策划、受控的环境下合成数据来解决这个问题。因为如果他们继续在网络上抓取更多数据,收益就会递减。

斯坦福大学人工智能研究员 Matthias Gerstgrasser 撰写了另一篇研究模型崩溃的论文,他表示,将合成数据添加到现实世界数据中而不是替换它不会引起任何重大问题。

所有模型崩溃文献都同意的一个结论是,高质量和多样化的训练数据很重要。

随着时间的推移,这种退化产生的另一个影响是,影响少数群体的信息在模型中被严重扭曲,因为它倾向于过度关注训练数据中更普遍的样本。

在当前的模型中,这可能会影响代表性不足的语言,因为它们需要更多的合成(人工智能生成的)数据集。

一个可能有助于避免退化的想法是确保模型对原始人工生成的数据给予更多权重。研究的另一部分允许后代对原始数据集的 10% 进行采样,这减轻了一些负面影响。

这需要从原始的人类生成的数据到后续几代数据的追踪,即所谓的数据来源。

但来源识别需要某种方式将互联网内容过滤为人工生成和人工智能生成的内容,而这一技术目前尚未被破解。

虽然目前有许多工具可以确定文本是否由人工智能生成,但它们通常并不准确。

不幸的是,我们的问题比答案还多。但很显然,了解数据来源以及在多大程度上可以信任它来获取所处理数据的代表性样本非常重要。

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

网络研究观

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值