用AI生成数据训练AI或导致模型崩溃，原始内容9次迭代后成了“胡言乱语”

江南13521730416

于 2024-07-26 11:35:48 发布

阅读量410

点赞数 9

文章标签：深度学习 ITSS证书 ITSS个人认证 ITSS ITSS服务经理 ITSS服务工程师人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2402_84109700/article/details/140711404

版权

在《自然》杂志最新发表的研究论文中，揭示了人工智能（AI）面临的一个严峻挑战：使用由AI生成的数据集来训练后续世代的机器模型，可能导致其输出结果严重扭曲，这一现象被称作“模型崩溃”。

研究显示，在经过九次迭代后，原本的内容会变成无关的乱码（例如，一篇关于建筑的文本最终演变成一系列野兔的名字）。

这一发现凸显了采用可靠数据训练AI模型的重要性。

目前，诸如大型语言模型等生成性AI工具越来越受到欢迎，这类工具主要依靠人类产生的输入进行训练。

然而，随着这些模型在互联网上的不断扩散，计算机生成的内容可能会以递归的方式用于训练其他AI模型或其自身。

包括英国牛津大学在内的研究团队一直在对此进行研究，并在之前的预印本论文中提出了相关概念。

他们在正式发表的论文中使用数学模型展示了潜在的AI“模型崩溃”问题。

研究团队分析了当AI模型处理主要由AI生成的数据集时的行为模式，并发现向模型输入AI产生的数据会削弱未来几代模型的学习效率，最终引起所谓的“模型崩溃”。

几乎所有测试过的递归训练语言模型都表现出了这一问题。

例如，一项以中世纪建筑文本为原始输入的测试，到了第九代输出时，已变为一连串的野兔名称。

研究指出，使用前几代生成的数据集来训练AI，崩溃几乎是一个不可避免的结果。

因此，必须对数据进行严格的筛选。

同时，这也意味着依赖人类产生内容的AI模型或许能培养出更高效的AI系统。

总编辑评论：

对于AI而言，“模型崩溃”类似于癌症，有早、晚期之分。

早期时，接受生成数据的AI开始丢失部分正确原始数据；而在晚期，被“喂食”了生成数据的AI会输出完全不切合实际、与底层数据毫不相关的结果，如同本文案例所示。

更加令人担忧的是，一旦发生“模型崩溃”，错误几乎是无法纠正的，因为AI会变得极其顽固，持续强化错误的输出并认为是正确的。

这个问题应当受到所有关注生成式AI的人的警觉，因为它等同于在“污染”AI对真实世界的理解能力。

CCRC-DSO数据安全官，CCRC-DSA数据安全评估师，CCRC-DCO数据合规官，CDO首席数据官，,ITSS IT服务项目经理，IT服务项目工程师。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。