DeepMind用语言游戏让大模型学AlphaGo自我博弈,数据限制不存在了

 点击访问我的技术博客ChatGPT人工智能中文站 - ChatGPT人工智能中文站

自我博弈,很神奇吧?

我们终于朝着真正自主、自我完善的人工智能迈出了重要一步?

上周末,一篇 Google DeepMind 的论文引发了 AI 圈的关注。研究者引入了「苏格拉底式学习」,这是 AI 中递归自我完善的一种新方法。这种方法使系统能够自主增强其能力,超越初始训练数据的限制。通过利用结构化的「语言游戏」,该技术可以为实现通用人工智能提供了实用的路线图。

在该工作中,DeepMind 提出的框架围绕封闭、自给自足的环境,AI 系统无需外部数据即可运行。要实现目标,智能体必须满足三个关键条件:反馈与目标一致,广泛的数据覆盖范围,以及足够的计算资源。这种设计促进了独立学习,为通向 AGI 提供了一条可扩展的途径,同时解决了数据生成和反馈质量等挑战。

新方法的核心是进行「语言游戏」,即智能体之间结构化的交互、解决问题并以分数的形式接收反馈。这些游戏允许人工智能进行自我博弈,生成数据并完善技能,也无需人工输入。递归结构使系统能够自主创建和开局新游戏,解锁更抽象的解决问题的能力并扩展其能力。

最终的创新在于 AI 自我改造,智能体不仅可以从环境中学习,还可以重新配置其内部系统。这样可以消除固定架构带来的限制,为超过以往的性能改进奠定基础。总之,DeepMind 的研究强调了苏格拉底式学习作为创造真正自主、自我完善的人工智能的变革性步骤的潜力。

让我们看看这篇论文是怎么说的:

图片

  • 论文标题:Boundless Socratic Learning with Language Games

  • 论文链接:https://arxiv.org/abs/2411.16905

考虑一个随时间演变的封闭系统(无输入、无输出)(见图 1)。系统内有一个具有输入和输出的实体,称为智能体(Agent),它也会随时间发生变化。系统外部有一个观察者,其目的是评估智能体的性能。如果性能不断提高,我们就把这对系统和观察者称为改进过程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值