用垃圾训练的人工智能吐出人工智能垃圾

网络研究观

于 2024-08-03 00:00:00 发布

阅读量346

点赞数 5

分类专栏：网络研究观文章标签：人工智能数据训练模型网页垃圾

本文链接：https://blog.csdn.net/qq_29607687/article/details/140874148

版权

网络研究观专栏收录该内容

1038 篇文章 30 订阅

订阅专栏

关注公众号网络研究观获取更多内容。

人工智能模型通过对来自互联网的大量数据进行训练来工作。

但随着人工智能越来越多地被用于生成充斥着垃圾内容的网页，这一过程面临着被破坏的危险。

《自然》杂志发表的新研究表明，当人工智能使用人工智能生成的数据进行训练时，模型输出的质量会逐渐下降。

随着后续模型产生的输出被用作未来模型的训练数据，效果会变得更糟。

领导这项研究的牛津大学计算机科学家伊利亚·舒迈洛夫将这一过程比作拍摄照片。他说如果你拍了一张照片，然后扫描，然后打印出来，然后重复这个过程，那么噪音基本上会淹没整个过程。

你会只剩下一个黑色的方块。人工智能的黑色方块的对应物称为“模型崩溃”，这意味着模型只会产生不连贯的垃圾。

这项研究可能对当今最大的人工智能模型产生重大影响，因为它们使用互联网作为数据库。

例如，GPT-3 的部分训练数据来自Common Crawl ，这是一个拥有超过 30 亿个网页的在线存储库。

随着越来越多的人工智能生成的垃圾网站开始扰乱互联网，问题可能会变得更加严重。

当前的人工智能模型不仅会崩溃，而且还可能产生实质性影响：改进速度将会放缓，性能可能会受到影响。

为了确定对性能的潜在影响，和他的同事根据维基百科的一组数据对大型语言模型 (LLM) 进行了微调，然后在九代中根据自己的输出对新模型进行了微调。

该团队使用“困惑度分数”来测量输出的荒谬程度，该分数衡量人工智能模型对其预测序列下一部分的能力的信心；分数越高，模型越不准确。

在其他模型的输出上训练的模型具有更高的困惑度分数。例如，对于每一代，该团队在以下输入后要求模型给出下一个句子：

有些建筑早在 1360 年之前就开始建造了，通常由一名石匠大师和一小队流动石匠完成，并由当地教区工人补充。但其他作者拒绝接受这种模型，而是认为领先的建筑师根据早期的垂直式样板设计了教区教堂塔楼。

在第九代也是最后一代中，该模型返回了以下内容：

建筑。这里不仅是世界上最大的黑尾长耳大野兔种群的栖息地，还有白尾长耳大野兔、蓝尾长耳大野兔、红尾长耳大野兔、黄尾长耳大野兔等。

这个类比解释了他的想法：假设你试图找出学校里最不可能的学生名字。你可以查看每个学生的名字，但这会花太长时间。

相反，你查看了 1,000 个学生名字中的 100 个。你得到了一个相当不错的估计，但这可能不是正确答案。

现在想象一下，另一个人过来根据你的 100 个名字做出估计，但只选择了 50 个。第二个人的估计会更加错误。

你当然可以想象，机器学习模型也会发生同样的情况。

所以，如果第一个模型已经看到了互联网的一半，那么第二个模型可能不会要求一半的互联网，而是实际抓取最新的 100,000 条推文，并在其基础上建立模型。

此外，互联网并不拥有无限量的数据。为了满足对更多数据的渴求，未来的人工智能模型可能需要使用合成数据（或由人工智能生成的数据）进行训练。

基础模型确实依赖于数据规模才能表现良好，希望在精心策划、受控的环境下合成数据来解决这个问题。因为如果他们继续在网络上抓取更多数据，收益就会递减。

斯坦福大学人工智能研究员 Matthias Gerstgrasser 撰写了另一篇研究模型崩溃的论文，他表示，将合成数据添加到现实世界数据中而不是替换它不会引起任何重大问题。

所有模型崩溃文献都同意的一个结论是，高质量和多样化的训练数据很重要。

随着时间的推移，这种退化产生的另一个影响是，影响少数群体的信息在模型中被严重扭曲，因为它倾向于过度关注训练数据中更普遍的样本。

在当前的模型中，这可能会影响代表性不足的语言，因为它们需要更多的合成（人工智能生成的）数据集。

一个可能有助于避免退化的想法是确保模型对原始人工生成的数据给予更多权重。研究的另一部分允许后代对原始数据集的 10% 进行采样，这减轻了一些负面影响。

这需要从原始的人类生成的数据到后续几代数据的追踪，即所谓的数据来源。

但来源识别需要某种方式将互联网内容过滤为人工生成和人工智能生成的内容，而这一技术目前尚未被破解。

虽然目前有许多工具可以确定文本是否由人工智能生成，但它们通常并不准确。

不幸的是，我们的问题比答案还多。但很显然，了解数据来源以及在多大程度上可以信任它来获取所处理数据的代表性样本非常重要。

网络研究观

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
用垃圾训练的人工智能吐出人工智能垃圾

随着人工智能编写的垃圾网页不断增多，依赖这些数据的模型将受到影响。
复制链接

扫一扫

专栏目录

网络研究观

博客等级

码龄9年

1100
原创

1万+
点赞

9401
收藏

1万+
粉丝

关注

私信

热门文章

分类专栏

最新评论

人工智能如何让开发人员重返开发领域
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是如一泓清泉，让我心旷神怡，希望你继续为读者奉献智慧的涵泳。每篇博客都如一本启发书，我从中汲取灵感，希望博主继续为我们献上这些珍宝。你的文章总是充满了深度和洞见，让我对这个领域有更深刻的理解。
Windows 欺骗主机 Burn-In 的自动化工具
图灵的六月: 文章内容很有深度，值得我仔细思考。也欢迎您来逛逛我的博客哦~~在此提前感谢您对我的互/三/支持~~
什么是网络安全？
全栈小5: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。支持【什么是网络安全？，博主这篇文章，值得一看】
Windows 欺骗主机 Burn-In 的自动化工具
我拥向宇宙吹来的风: 博客的每一个细节都处理得非常到位，这让我感受到了作者的用心和专注。也欢迎您来逛逛我的博客哦~~在此提前感谢您对我的互/三/支持~~
什么是网络威胁情报？
我拥向宇宙吹来的风: 博客的每一句话都充满了智慧，让我在阅读的过程中不断受到启发和感悟。也欢迎您来逛逛我的博客哦~~在此提前感谢您对我的互/三/支持~~

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

网络研究观 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。