吴恩达&各行业众多大佬2025年展望

我们正站在新时代的边缘,即将踏入一个人工智能系统展现出非凡能力的崭新时代。它们能够深度洞察世界、精准理解我们的诉求,并采取切实行动予以实现。面对这样强大的力量,我们该如何驾驭,让其发挥最大价值?为此,我们特意邀请了人工智能领域的领军人物,分享他们对新一年的展望。和以往的新年特刊一样,他们的见解不仅为我们勾勒出未来可能构建的蓝图,也让我们看到人工智能有望为世界带来的积极影响,极具启发性 。

Hanno Basse: Generative AI for Artists

Stability AI( Stability人工智能公司)的目标是将各行各业的艺术家从其工作中重复、机械的部分解放出来,帮助他们把大部分时间花在创意方面。所以,我们对明年的最大期望是,生成式人工智能将助力人们更具创造力、更高效地开展工作。

此外,我希望人工智能领域能够聚焦于以下几点:

安全性与完整性:从开发的最早期阶段就嵌入完整性来打造安全的产品,确保这项技术能被负责任地使用,并为叙事艺术做出有意义的贡献。

易用性:生成式人工智能产品及工具必须面向尽可能广泛的受众群体,做到易于获取和使用。目前,大部分生成式人工智能仍然主要面向那些具备高级专业技术知识的个人(比如工程师)开放使用。为解决这一问题,我们需要在基础模型之上开发出更好的工具,以便它们能为多样化的受众群体创造价值。

定制化:展望未来,我们预计生成式人工智能将会变得越来越专业化。除了大型基础模型之外,我们预计针对特定且往往是非常狭窄的用例及应用场景(甚至细化到单个任务层面)而定制的小型微调模型会大量增加。生成式人工智能的真正潜力将在这方面得以展现。而且,这也是在现实世界中部署生成式人工智能最安全、最负责任的方式。

汉诺·巴斯(Hanno Basse)是Stability AI公司的首席技术官。此前,他曾担任数字王国(Digital Domain)、微软Azure媒体与娱乐部门以及20世纪福克斯电影公司(20th Century Fox Film Corp.)的首席技术官。

David Ding: Generated Video With Music, Sound Effects, and Dialogue

去年,我们见证了能够高质量生成视频或音频输出的模型如雨后春笋般涌现。在新的一年里,我期待能出现可生成完整视频片段的模型,这些视频带有包括人声、音乐和音效在内的音轨。我希望这些模型能开启电影创作的新纪元。

打造这样的电影级视频生成器所需的技术已基本具备。有几家公司推出了极具竞争力的视频模型,Udio和其他公司也开发出了音乐模型。剩下要做的就是同时对视频和音频进行建模,包括对话和旁白。(事实上,我们已经看到了类似的成果:Meta的Movie Gen。用户描述一个场景,Movie Gen就能生成一个配有乐谱和音效的视频片段。)

当然,训练这样的模型需要大量数据集。但我推测,用于训练现有视频生成器的视频所包含的音轨里可能已经涵盖了这些元素,所以数据或许不会成为开发这些模型的阻碍。

起初,这些模型生成的作品在质量上还无法与专业视频编辑的顶尖作品相媲美。但它们会快速发展。不久之后,它们生成的视频和音轨在原始质量上会接近好莱坞制作水平,就像目前的图像生成模型生成的图像与高端摄影作品难辨真伪一样。

与此同时,用户对视频和音频输出的控制程度也将不断提高。例如,我们刚推出Udio时,用户无法控制其生成的和声。几个月后,我们发布了一个更新,使用户能够指定调式或主音。这样用户就能对现有歌曲进行不同调式的混音。我们正在继续研究为用户提供更多控制手段,比如音色、旋律和节拍,我相信视频建模团队也在进行类似的可控性研究。

有些人可能会对能生成完整电影级视频的模型感到不安。我理解这种感受。我喜欢摄影和演奏音乐,但我发现图像和音频生成器对我的创作工作而言是很有帮助的起点。如果我需要,人工智能可以给我一张基础图像,让我在Photoshop中进行加工,或者提供一段音乐作品供我采样或改编。再想想那些能生成整个网站文件的人工智能代码助手。你不再需要依赖网页开发者,但如果你和他们交流,就会知道他们并不总是喜欢编写网站的样板代码。有了一个能搭建网站框架的工具,他们就能把时间花在更具挑战性和趣味性的开发任务上。

同样,你将能够编写一个剧本,并快速制作出电影的大致样片。你可能会生成1000个不同版本,从中选出你喜欢的,并从中获取灵感,以指导摄像师和演员。

艺术的关键在于创作过程中的各种创意选择。你和我都可以用Midjourney绘制一幅风景画,但如果你是一位艺术家,且对自己想要的风景有清晰的构想,那么你用Midjourney生成的作品就会比我的更引人注目。同样,任何人都可以用Udio制作高质量音乐,但如果你有良好的音乐品味,你的音乐就会比我的更好。视频仍将是一种艺术形式,因为人们可以决定自己的电影主题、画面风格和情感基调,而且他们能够更流畅、快速且互动性地做出这些选择。

大卫·丁(David Ding)是一位资深音乐人,也是Udio的联合创始人。Udio是一款音乐创作网络应用程序,能让用户创作原创音乐。此前,他是谷歌DeepMind的高级研究工程师 。

Joseph Gonzalez: General Intelligence

在2025年,我预计随着我们触及扩展极限以及推理成本持续攀升,基础模型训练方面的进展将会放缓。相反,我希望人工智能上层应用能涌现出大量创新,比如快速发展的智能体(agents)体系。我期望看到在将人工智能与工具及现有系统相结合的方式上出现创新,进而带来令人振奋的新能力并创造出新的产品类别。或许最重要的是,我很期待看到人们如何适应这个全新的世界并随之做出改变。

我们已经实现了通用人工智能(AGI)。那接下来会怎样呢?让我们先开启——也希望能结束——围绕人工通用智能(AGI)由来已久的争论吧。我知道这颇具争议,但我认为我们已经实现了AGI,至少从定义层面来说是这样的:我们的人工智能如今已具备通用性。有关感知能力和超级智能的长篇大论,我就留给哲学家们去探讨了,我会把重点放在关键的创新点——通用性上。

过去几十年的人工智能或机器学习是智能的,但高度专业化。它们往往能在定义明确的狭窄任务(如图像识别或内容推荐)上超越人类能力。如今的模型,或许更重要的是围绕它们构建的系统,能够完成范围极广的各类任务,而且常常能做得和人类一样好,在某些情况下甚至比人类更出色。正是这种通用性,将使得工程师、科学家和艺术家们能够利用这些模型进行创新,而创新的方式可能是模型开发者们从未想象过的。也正是这种通用性与市场力量相结合,会让2025年变得如此令人激动。

适应人工智能时代:这些模型的通用性及其自然语言交互界面意味着每个人都可以使用并探索人工智能。而我们确实正在这么做!我们正在学习向机器解释我们所处的情况,提供背景信息和指导,并期望得到个性化的答案和解决方案。在我参与创立的RunLLM公司,我们正在打造高质量的技术支持智能体。我们发现,用户越来越多地使用我们的智能体,不仅是为了解决问题,还为了针对他们的特定任务实现解决方案的个性化。我们还惊讶地发现,用户与人工智能分享的内容比他们与其他人分享的要多得多。

与此同时,在加州大学伯克利分校,令我印象深刻的是,学生们会利用人工智能重新解读我的授课内容,或者依据人工智能生成的模拟考题进行学习。他们已经找到了利用人工智能来帮助实现学习体验个性化和提升学习效果的方法。到2025年,或许当我们需要帮助或者尝试学习时,会开始更倾向于选择人工智能而非人类。

在所有这些应用场景中,我们显然在绕过大型语言模型的局限以及以我在12个月前根本想象不到的方式使用人工智能方面做得越来越好了。

人工智能投资回报:2025年的关注点将转向展现过往投资的实际价值。投资者和企业将期望初创企业以及企业的人工智能团队从探索阶段过渡到解决实际问题阶段——比如降低成本、增加收入、改善客户体验等等。这对需要筹集研究资金的学者们来说是个坏消息(如果您有2024财年剩余资金,请私信我),但对其他所有人来说却是个好消息,他们将受益于人工智能驱动的新功能浪潮。

届时将会出现一场竞赛,各方会竞相寻找创新方法,将人工智能融入产品和业务的方方面面。在很多情况下,我们会看到仓促上线的聊天机器人和自动摘要功能——这只是踏上人工智能征程的第一步。我希望它们能很快被能适应用户需求并从交互中学习的情境智能体所取代。疫情为远程(数字)助手的发展铺平了道路,也展现出了一个几乎人人可及、配备了未来智能体所需工具的工作场所。这些智能体很可能会专门承担过去由人类担任的角色,或者填补由其他智能体创造出的新角色。或许当每个人都能管理自己的定制智能体团队时,我们就能知道人工智能兑现了它的承诺。

聊天只是个开始:我对2025年的期望是,我们能够超越聊天这一形式,去探索如何利用人工智能做出了不起的事情!我希望看到人工智能智能体在后台默默工作,无形之中协助我们处理日常事务。在我们做决策时,它们会呈现出恰当的背景信息,并且随着世界变化帮助我们学习。通过提供背景和工具,它们会让我们知晓自己遗漏了什么,并帮我们处理那些我们顾不上的事务。我们聊天的次数会减少,而由人工智能驱动的智能体将代表我们完成更多工作。我期待着有朝一日,我能够充满信心地离开键盘,专注于那些重要的人际交往。

约瑟夫·冈萨雷斯(Joseph Gonzalez)是加州大学伯克利分校的教授、RunLLM的联合创始人,也是Genmo和Letta的顾问。

Albert Gu: More Learning, Less Data

构建基础模型需要海量的数据。在接下来的一年里,我希望我们能够让模型从更少的数据中学习到更多内容。

人工智能领域通过扩大Transformer模型和数据集的规模取得了显著的成功。但这种方法可能正在进入收益递减阶段——预训练领域的人们在尝试训练下一代模型时,越发普遍地持有这一观点。无论如何,当前的这种方法带来了一些实际问题。使用庞大的数据集训练巨型模型会耗费大量的时间和能源,而且我们用于训练大型模型的新数据源也快枯竭了。

事实上,当前的模型在学习时所消耗的数据量远远多于人类所需。我们很早之前就知道这一点了,但由于扩大规模所展现出的惊人成效,我们一直忽略了这个问题。训练一个模型需要数万亿个标记(tokens),而人类要成为一个具备相当智力水平的个体所需的数据量则要少好几个数量级。所以,我们最先进的模型与人类在样本效率方面存在差异。人类的学习过程表明,存在一种学习算法、目标函数、架构或者它们的某种组合,能够比当前模型更高效地利用样本进行学习。

解决这一问题的关键之一在于让模型能够生成更高级的抽象概念并过滤掉噪声。我认为这一概念,以及由此衍生的数据效率这一普遍问题,与人工智能领域当前的其他几个问题相关:

数据整理(Data curation):我们知道,用于训练模型的特定数据极其重要。如今,在训练基础模型时,大部分工作都集中在数据上,而非模型架构,这已经是一个公开的秘密了。为什么会这样呢?我认为这与我们的模型学习效率低下有关。我们必须提前对数据进行处理,以便为模型做好准备,而这可能会阻碍人工智能作为一种从数据中自动学习的过程所具备的核心潜力。

特征工程(Feature engineering):在深度学习领域,我们一直在朝着更通用的方法迈进。从深度学习革命伊始,我们就逐步摒弃了手工制作的特征,比如计算机视觉中的边缘检测器以及自然语言处理中的n-元语法(n-grams)。但这种工程化操作只是转移到了流程的其他环节。例如,标记化(Tokenization)就涉及到隐含特征的工程处理。这表明,在构建更具数据效率、更能普遍处理更多原始模态和数据流的模型架构方面,仍有很大的发展空间。

多模态(Multimodality):训练模型使其能够共同理解多种数据类型的关键在于找出它们共有的核心抽象概念,并将这些概念相互关联起来。这应该能让模型通过联合利用所有模态,从更少的数据中进行学习,这也是多模态学习的一个核心目标。

可解释性与鲁棒性(Interpretability and robustness):要确定一个模型为何会生成这样的输出,它需要能够生成更高级的抽象概念,而且我们需要追踪它捕捉这些抽象概念的方式。一个模型在这方面做得越好,它就应该越具可解释性,对噪声就应该越具鲁棒性,并且很可能在学习时所需的数据也就越少。

推理(Reasoning):提取更高级的模式和抽象概念应当能让模型更好地基于它们进行推理。同样,更好的推理能力也意味着所需的训练数据会更少。

普及化(Democratization):构建最先进的模型成本高昂,这其中包括收集和准备大量数据的成本。很少有机构有能力承担这样的成本。这使得该领域的发展成果在缺乏足够数据或资金的领域较难应用。因此,更具数据效率的模型将会更容易被获取且更有用。

考虑到结合这些其他问题来看待数据效率,我认为它们之间都是相互关联的。目前尚不清楚哪个是因,哪个是果。如果我们解决了可解释性问题,我们所设计的机制或许会引导生成能够提取更好特征的模型,进而产生更具数据效率的模型。或者我们也可能发现,更高的数据效率会带来更具可解释性的模型。

不管怎样,数据效率从根本上来说至关重要,该领域的进展将成为人工智能更广泛进展的一个指示器。我希望在来年能看到这方面取得重大进展。

阿尔伯特·顾(Albert Gu)是卡内基梅隆大学机器学习助理教授以及Cartesia AI公司的首席科学家。他入选了《时代》杂志2024年人工智能领域最具影响力人物名单。

Mustafa Suleyman: Agents of Action

到2025年,人工智能将学会“看”,它会变得更加智能、更加精准,并开始代表我们去做事。

如今,人工智能系统很难全面理解我们所处的情境。它们的感知仅限于聊天窗口以及相当有限的交互场景。除此之外,它们并不完全清楚我们正在做什么或者想要达成什么目标。要真正领会我们的意图,它们需要能看到我们所看到的东西。

如今这种能力已经出现了。人工智能可以嵌入我们使用的软件中,与我们一同进行协同浏览。如果说文字是与人工智能交互的第一种模态,语音是2024年的突破性功能,那么我认为视觉在2025年将占据类似的重要地位。在微软人工智能部门,我的一项首要任务就是打造一款能在浏览器中与你协同工作的人工智能,这样你就能针对自己正在查看或处理的内容进行交流,使其成为真正的双向互动。

视觉功能是一个重大变革,与我们过去使用计算机的方式有着明显的不同。我迫不及待地想看看在接下来的几个月里它会发展到什么程度。

除了视觉功能,我们还将看到在减少人工智能“幻觉”(指生成不符合事实的内容)方面取得巨大进展。这目前仍是人工智能被广泛应用的一个关键阻碍因素。如果人们对人工智能给出的信息持怀疑态度,那就会严重限制他们对人工智能的使用范围。信任对于人工智能来说是至关重要的基础。好消息是,模型的质量以及它们的检索和溯源能力仍在快速提升。

虽然我认为我们无法完全消除“幻觉”现象,但到明年这个时候,我们就不用再为此太过烦恼了。在大多数话题上,与人工智能交流至少会和使用搜索引擎一样可靠,甚至可能更可靠。这并非源于某一项单一的技术进步,而是各方面持续不断积累成果所致,它将会产生重大影响。

最后,我们正在步入智能体时代。几十年来,我们一直都在梦想着这一刻的到来。在我的著作《即将到来的浪潮:技术、权力与21世纪最大的困境》中,我提出我们应该开始思考“人工能力智能”(ACI)这个概念,也就是人工智能开始代表用户采取具体行动的时刻。赋予人工智能行动的能力标志着人工智能不再仅仅是与我们交谈,而是开始做事了。这是一个关键的变化,而且它即将来临。

如果我们能妥善应对,我们就能在让生活变得更轻松、更从容的同时,极大地提升企业和个人的生产力。但智能体能力需要最高标准的安全、安保以及责任保障。与此同时,打造真正实用的智能体仍面临诸多艰巨的障碍,尤其是要与无数其他系统进行集成。

发展势头已然形成,行动即将展开。2025年将会是意义重大的一年。

穆斯塔法·苏莱曼(Mustafa Suleyman)是微软人工智能部门的首席执行官。他是Inflection AI的联合创始人,也是DeepMind Technologies的创始人。

Audrey Tang: AI That Unites Us

随着2025年的临近,我对人工智能最大的期望是,它能够催生出促进共情、理解与协作的亲社会平台,而不是造成分裂。

长久以来,驱动社交媒体的算法就像露天采矿机一样运作,在获取关注的同时,侵蚀着信任和社会凝聚力。如今剩下的是千疮百孔的网络空间,共情难以在这里扎根,集体解决问题也找不到合适的土壤。人工智能能够——也应该——帮助我们跨越这些根深蒂固的分歧。

要实现这一目标,我们必须设计将亲社会价值观置于核心的人工智能系统。推荐算法不应加剧分裂,而应引导我们去接触那些能揭示共同立场的“弥合性内容”。它们应当明确指出某条内容所涉及的群体——无论是基于地域、宗教、政治、社会、文化还是职业划分的群体——并阐明其试图弥合的具体分歧所在。

要实现这一愿景,需要我们从根本上改变优化的目标。我们不应仅仅依赖纯粹的参与度指标,而应采用由价值观驱动的指标,将建设性的交流和相互理解置于优先地位。例如,我们可以重点关注“令人意外的验证者”,也就是那些能有效挑战固有假设,从而丰富我们对看似不可调和之事的认知的个人及观点。研究人员和开发者应当共同创造新的排名和筛选方法,将其嵌入广泛使用的平台中,并严格评估它们对民主生活的影响。

与此同时,人工智能领域必须采用参与式、包容性的开发和治理方法。关于多元一致性的研究强调,人工智能系统产生于复杂的社会背景之中,并在这样的背景下运行,纳入广泛的意见有助于防范制度性盲点。像“波利斯”(Polis)这样能够将立场可视化并揭示隐藏的共识领域的工具,已经展示了如何将复杂的情况变得清晰明了。这种参与式方法确保人工智能能够反映其所服务社会的优先事项和价值观,而不是放大少数人的偏见。

通过秉持这些包容、民主的原则,人工智能能够帮助我们共同打造促进社会凝聚力而非削弱它的数字公共空间。在从构建数据集到制定治理政策的各个阶段都融入集体的意见,可确保人工智能系统真正契合人类的多元价值观,并成为增进共同理解的催化剂。

唐凤(Audrey Tang)是中国台湾地区的网络事务大使、前数字事务主管,也是《多元性:协作技术与民主的未来》一书的合著者。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据分析能量站

谢谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值