展望2023-2028:AGI过去现在及未来发展

9f2eab8fcddef27a7d65a0e1a688505d.jpeg

来源:知乎@Flood Sung

作者:Flood Sung

2022年末,ChatGPT的“横空出世”让普通大众对于AI突破有了新的认识,人们第一次看到一个AI能够干各种各样需要常识甚至一定专业知识的事情,聊天,写论文,写代码都不在话下。ChatGPT的影响力不亚于当年的AlphaGo,我们谈论的AI由此在慢慢的变成AGI(通用人工智能)。在这之前,AGI一直是一个遥不可及的目标,之前人类所做的种种AI突破都是Narrow AI 弱人工智能,即一个AI只能干一种事,同时也都不具备所谓的常识。ChatGPT改变了这一点,让AGI开始走进现实,虽然现在还是比较弱的AGI。

AGI未来将如何发展,是一个非常值得探讨的话题。因此,本文尝试先分析AGI的发展史,然后抛出一些AGI未来发展的观点,希望对感兴趣的朋友们有所帮助。

PS:本文并未使用GPT参与写作。

a08c203738a0f28b75cc6de7eac25821.gif

一、2013-2022:AGI的简要发展史

要预知未来,先了解过去。AGI可以认为是DeepMind率先引入大众视野并通过其努力引发整个世界关注的AI终极方向。

7c6b2fdf279a30b254c2eb408d4fb6da.jpeg

在当年David Silver的Reinforcement Learning课程中,我们看到了他提出的解决通用智能的算法范式,至今看来基本正确,只是需要再加一个要素来加速这个过程:Imitation Learning(IL) 模仿学习:

2013年:Deepmind发表了第一版的DQN,第一次将DL和RL结合,开启了AGI的实现道路。

2015年:Deepmind将DQN发表到了Nature,年底OpenAI成立:

d868432da4b952602042a68b29ac5908.jpeg

2016年:DeepMind的AlphaGo横空出世,实现了深度学习的全新里程碑:

c75a6600b26ce76ec857305e2a4b339d.jpeg

2018年:OpenAI 提出Dota Five,在Dota上战胜职业选手:

a7c13f94d8f4281714420bbee387823d.jpeg

2019年:Deepmind提出AlphaStar,在星际争霸上战胜职业选手:

a13ae130cdc8a3fe772329571dddf7a0.jpeg

2019年:Openai实现了用机械手玩魔方:

46ec704738eaf257fa42ca88bd941b95.jpeg

接下来的里程碑就转向了语言模型,图文生成及AI for Science了

· 2019年:OpenAI发布GPT-2

· 2020年:OpenAI发布Image GPT

· 2020年:DeepMind发布AlphaFold 2

· 2021年:OpenAI发布Dalle, GPT 3, Codex

· 2022年:DeepMind发布AlphaCode

· 2022年:OpenAI 发布Dalle 2,InstructGPT,ChatGPT

上面列举的可能不全,主要就是OpenAI和DeepMind的工作。当然其他公司及学界也有很多不错的工作,但论影响力都达不到他们的高度。为什么就这两家?因为也就这两家宣称要搞AGI!

二、 AGI发展的背后缘由

我们看到了这么多的里程碑,我们一定要问的问题是

这些里程碑之间有什么联系?

其实他们的联系在一开始David Silver的ppt里就说明了,接下来的这些发展都是在这个范式中,只是笔者加了个IL模仿学习让联系更加紧密,下面我们来好好解释一下这个范式:

DL主要指的是基于深度神经网络的一套学习训练方式,简单的说就是一个神经网络,一个损失函数,一个反向传播:

625da60a64c623da45f62e8833abc39e.jpegLeNet

深度学习的发展,网络变了,变成了以Transformer为主流的网络结构,但核心机制是完全没有变化的。

51b4d1d5f81cfe4a0c2d44a8a385bc01.jpeg

Transformer

IL和RL则是怎么构建损失函数训练这个神经网络的方法。

先说IL 模仿学习,我们可以看到:

AlphaGo的第一代使用大量围棋人类选手的数据来做模仿学习

AlphaStar使用大量星际争霸人类选手的数据来做模仿学习

GPT,ChatGPT呢?也一样,只是改为使用浩瀚的人类文本数据通过自回归autoregressive的方式来做模仿学习。

为什么要模仿学习?因为快啊!模仿学习给神经网络带来的信号强度远远高于强化学习。

那强化学习呢?

当我们不再有足够的可模仿数据的时候,我们只能让AI通过探索的方式来学习,这个时候只有强化学习这条路了:

67da36f4545d1fd407961b3f5e09daf4.jpeg来自David Silver的ppt

其实我们人类的学习过程不就是模仿学习+强化学习吗?所以,所谓的AI就是模仿人类学习而构建的智能。

所以,我们看到了:

AlphaGo,在模仿学习后开始强化学习,然后水平吊打人类专业选手

AlphaStar,在模仿学习后开始强化学习,然后水平能够战胜人类专业选手

ChatGPT,在模仿学习后(GPT)使用人类反馈的信息做强化学习,然后就能够比较好的按照人类的指令来回答问题了。

这就是强化学习的威力。一定程度上,我们可以认为我们整个人类是一个智能体,正在通过科学家做强化学习来拓展人类的文明边界。

在回答了AGI的范式问题后,我们一定还会问一个问题是:

为什么早几年的AI里程碑都是限定场景,而之后就变成了GPT这样的通用场景?

1fbf253e4c1c7afa20720fa503044667.jpegFrom John Schulman's PPT

因为限定场景的数据量太少,无法实现通用性。上面这个图来自John Schulman (PPO和ChatGPT的作者),它对比了之前Atari等游戏场景及GPT场景在任务分布上的不同。游戏场景都是独立的,不同任务之间的差异也就是Gap非常大,所以AI学会一个游戏并不能让其就会玩另一个游戏。而GPT的场景是文字世界,这个场景里的任务比如总结,写作,聊天都是联系在一起的,所以他们的任务有千千万,并且是连续的,这使得GPT训练完具备了很强的Few-Shot Learning/Meta Learning的能力,即能够实现非常强的泛化能力,面向全新的问题也会回答。

可能一些朋友不了解Meta Learning也就是学会学习,这个概念在学术界2017,2018年后非常火,因为大家发现之前的AI都要大量训练才能做新任务,而人类则具备快速学习能力,由此AI也要具备这样的能力。GPT通过巨量的文本数据做模仿学习,然后InstructGPT通过巨量的任务文本数据做Instruct Finetuning,从而具备了极强的快速学习能力,由此开创了Prompt Engineering或者学术界叫In-Context Learning这个全新领域,即我们不再需要训练模型,只需要修改开头的输入Prompt,就能让AI快速学习并输出合理的结果。

23b1214d7fa131ecb70510fab308d8ee.jpeg

OpenAI快速的捕捉到了文字世界这个场景拥有的数据量无与伦比,因此快速转换了赛道,关掉了机器人组,这种决策让人不得不佩服万分。

最近,DeepMind发布了Ada,依然是游戏场景里的AI,只是Deepmind也发现了原来Atari的任务空间分布差距太大的问题,改使用自己构建的全新环境Xland进行大模型的训练,该环境具备非常强的任务空间连续性,从而能够在这个游戏场景中产生非常强的智能水平:

016cf00ac54172ce8df8678bb7629271.jpeg

c7ae8e1946d78ec62bd8bedf8b12216b.jpeg

从另一个角度看,如果这个XLand未来能够变成真实世界,那么完全体的AGI也就有可能在里面诞生。AGI的实现变成了时间问题。

三、2023-2028: AGI会如何发展?

看完了AGI的历史和现状,我们就能做出一些预测了(我们自己也是个自回归模型啊 )(下文有一些预测出自AI大佬们)

也推荐大家看Jim Fan的预测:https://twitter.com/DrJimFan/status/1616107916662300672

预测1:文字世界的精进,LLM从普通到专业

我们现在看到的ChatGPT看起来是很惊艳,什么都懂点,但细究一下会发现有很多事实错误,逻辑错误。真让它参加下高考,恐怕除了英语,其他都很难考高分。所以,现在的LLM(大语言模型)可以认为是一个什么都懂,但又懂的有点迷糊的普通人。很自然的,下一步的LLM需要变强,变得更专业。比如,通过高考,能够考出985的水平,这让LLM成为一个真正有知识有文化的人,当然这也意味着AI将完全通过图灵测试!GPT4或许能给我们惊喜!那么通过高考之后,下一步当然是专业领域的学习了。LLM能不能通过司法考试,能不能通过公务员考试?再然后,就是专业领域专家级别的能力了。LLM能不能拿到IMO,ACM的金牌?

我们前面提到,当模仿学习完之后,需要强化学习来做进一步的精进。这个对于LLM在专业领域同样适用。比如数学,现实世界中就没那么多的数学难题可以模仿,那么要让LLM能解数学难题就得通过强化学习了。这里就带出了一个全新问题,LLM真的可以通过强化学习的训练来做数学难题吗? 如果可以,基于Transformer的这套网络架构还可以接着玩下去,如果不行,那么我们就看到了当前LLM的瓶颈了,需要全新的架构才能进一步的突破。这一块或许DeepMind的AlphaCode团队已经在做。我们可以看到AlphaCode目前的算法就是模仿学习:

e530955747742de6adb2df20bbe10d46.jpeg

现在只能做34%的题,排到top 54%:

390637f205008add54cadf3f4acc10da.jpeg

接下来看通过强化学习,能否干到TOP HUMAN水平。这件事情如果成功,将会是下一个里程碑!

预测2:征服多模态的视频世界

显然,相比文字世界,视频世界的数据量,大了不知道多少个数量级,我们人类从婴儿开始本质上也是通过这种多模态的数据(当然,我们还有触觉,味觉,嗅觉。。)来快速学习。所以,如果AI能够实现很强的多模态学习能力,通过海量的视频进行学习,那么AI将会展现出怎样的能力呢?一定会让人难以置信。据说GPT4是多模态的,期待其发布。这个预测可能毫无信息量,因为所有人都做了这个预测!并且很显然的科学家们就在朝这个方向突破。

预测3:大模型连接现实世界,成为一个General Agent!

我们看到Ada,是在一个非常小的虚拟世界当中,来展现其通用的决策能力。我们又看到,ChatGPT在文字世界中,展现出强大的通用文字能力。AGI不可能局限在文字,也不仅仅是多模态,关键是决策。这也是我们坚信RL是通往AGI的初始原因。因此,大模型会作为一个Agent智能体出现,能够影响现实世界!首先它将面对的现实世界可能是浏览器,电脑,手机,家电,然后就是机器人。

下面是大佬Oriol Vinyals和Andrej Karpathy的tweet截图,大家都看到了这一点。因此,这一块的研究接下来几年会非常有意思。

7673fecf9c73bb678377aeb6137e1bca.jpeg

c7cb37d9c03e3849d3e78750fba28760.jpeg

预测4:自动驾驶将全面转向大模型,并真正向L4,L5进发。

自动驾驶就是一个非常好的限定多模态场景,那么它没有理由不会受益于大模型的发展。一样的范式,用海量数据做模仿学习,然后通过强化学习在仿真环境中做优化,解决掉Corner Case,那么完全自动驾驶没理由不能实现啊。甚至,我们基于一个多模态的大模型在做基础模型,这样,我们获得的不仅仅是自动驾驶能力,而是一个能跟你说话聊天的自动驾驶司机。记得当年的科幻片里的自动驾驶汽车不就是这样嘛。

预测5:通用家用机器人将大幅发展,同样采用大模型

和自动驾驶类似,通用家用机器人也是一个限定的多模态场景,比如只是难度可能更大。Google的RT-1已经验证了大模型驱动机器人的模式是可行的:

575355587dd49b5e4e8a02bc0654dc8b.jpeg

接下来的核心还是数据!现实场景最大的问题就是数据,所以OpenAI之前要砍掉机器人部门。那么,如果前面基于视频的多模态学习能很好实现,那么人型机器人就非常好办了,就从人这边学习,看无数的视频,然后映射到人形机器人的动作上。同样的再通过仿真环境做强化学习来解决corner case从而人型机器人将能实现大的突破,走入家庭在10年内不是梦!

预测6:自然语言成为新的编程语言!

7233f1d11bbfea5eda6b185448b1a46e.jpeg

同样来自Andrej Karpathy,当然我也是这么想的。如果你玩Prompt玩的足够多,一定也会有这样的想法!所以,现在的小孩还学编程可能意义不大,未来大部分人将直接通过自然语言编程和AI交互。

预测7:AI for Science将突飞猛进,越来越多科学领域被AI突破

ebdad2d756bac77d84dbed07e5ae164f.jpeg

刚看到微软发布的ClimaX,天气预测也是大模型加持。还有什么是大模型不能做的呢?

四、影响:AGI时代,人类将何去何从?

是的,AGI时代在到来,并将颠覆一切。普通人的价值在变小,当AI真的变得无所不能,干什么都比人强的时候,人类存在的意义会被质疑,这一天或许早晚会到来。OpenAI的CEO Sam Altman说到时候就给大家发钱,然后人类就是玩玩玩吗?AI可能不想养这么多人(宠物)了。就如现在,如果利用AI,一个公司本来要5个人,有了AI加持只需要1个人,公司还会雇5个人吗?

终极命题,本文就不详细讨论了。至少在当前,AGI的发展还是太让人兴奋了,相信人类会有美好未来!

Illustration by nanoagency from IconScout

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

1b074f8d0f38213c0935ed186d55c319.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值