Transformer 作者最新两万字访谈：下一步是让模型学会“失败”，像人一样思考...

本文链接：https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/141616781

Aidan Gomez：OpenAI 现在的目标是成为一家产品公司，AGI 已经被排到了次要的位置。

文 | 王启隆

作者 | https://www.youtube.com/watch?v=FUGosOgiTeI

出品 | AI 科技大本营（ID：rgznai100）

本文为 CSDN 编辑整理，未经授权禁止转载，违者必究。

上周，创投圈的知名播客 20VC 放出了对 Cohere 创始人 Aidan Gomez 的最新采访。Cohere 是一家帮助企业构建人工智能应用程序的 AI 初创公司，目前估值 55 亿美元，而对于这位年轻的创始人，我们更多记得的是他的另一项重磅身份，即 Transformer 架构的开山论文《Attention Is All You Need》作者：

此前，我们整理过 Aidan 接受的另一场采访，《实习期间创下 Transformer，他说：当年整个 AI 圈都无法预见我们今天的高度》，其中透露了他在谷歌实习期间参与 Transformer 论文创作的一些故事细节。而这次的采访，则更加有料，更能体现 Aidan 此人的思想深度，以下为一些要点精炼：

Transformer 发布之后他的反应，以及预期外的事情：我没想到这个架构能这么火。但反倒是语言建模和整个扩展项目，我原以为世界会更快地意识到这一点。它一开始非常明显，但之后又过了两三年，大家才醒悟过来，才开始席卷全球。
接触计算机的渊源：朋友们都在网上玩游戏，而我只是感到很羡慕 —— 但不是嫉妒，而是感觉自己错过了这一波技术潮流，即互联网的到来和发展。这导致我想学习编程和互联网的知识，推动我进入计算机科学领域。
AI 模型的未来发展：对模型来说很明显的下一步是，你需要让它们有时间思考并解决问题。你需要允许它们失败。它们需要尝试某事，失败，理解为什么失败，然后回过头来再次尝试。所以目前，大模型还没有真正的问题解决能力。
未来的 AI 交互方式：把聊天作为一切的界面，我觉得没什么意义。我不想每次都必须明确地输入指令才能完成事情。有时我就想点点按钮，浏览一下界面，就把事情搞定。所以我不认为GUI已经过时了，我们也不应该用文本框替换所有东西。
谈及他眼中的 Ilya Sutskever：关于模型扩展的想法早在 Ilya 脑海中形成，早在他真正开始追求这个想法的几年之前。这种信念造就了我们今天所处的世界，这是一种客观上神奇的技术，如今已经对所有人开放。

话不多说，后面都是采访全文翻译：

进入计算机领域只因“羡慕嫉妒恨”

主持人：据说你是在安大略省的乡村长大，住在一栋由你祖父或父亲亲手建造的房子里。能为我们描述一下当时的生活吗？

Aidan Gomez：是的，我在安大略省的荒郊野外长大，那里有块100英亩的地，全部都是森林。而且是一片枫树林。在一个加拿大风格最浓郁的环境中长大真是太酷了，但那里的生活确实远离了技术。

主持人：但是你喜欢游戏，不是吗？

Aidan Gomez：我确实喜欢游戏。所以我从一开始就热爱技术。只是很难接触到它。比如，我们连不上互联网，只能拨号上网，在加拿大接入高速互联网的时候，我还用了好几年的拨号上网。所以我的朋友们，他们都在网上玩游戏，做各种各样的事情。而我只是感到很羡慕 —— 但不是嫉妒，而是感觉自己错过了这一波技术潮流，即互联网的到来和发展。这让我对技术着迷。我会坐在家里对着我们的电脑和那个糟糕的拨号上网。我会想办法让家里的网络更快。我会尽可能地利用我所拥有的一切。最终，这导致我想学习编程和互联网的知识，推动我进入计算机科学领域，就像是被迫要了解这种技术是如何工作的，以便我可以从中获得更多的东西。

主持人：通过与许多杰出的创始人交流后，我现在得出了一个非常奇怪的结论 —— 那些在早年玩过游戏的人，与取得成功的人之间存在着极高的相关性（比如马斯克也很爱玩游戏）。你认为为什么游戏会对成功的创始人产生如此大的贡献？

Aidan Gomez：电子游戏能教会我们一些东西。比方说，玩游戏会让你更愿意去磨练自己，去做重复的、困难的、痛苦的事情，为了达到更广泛的目标。因此这种韧性我认为是很重要的。另外，你在游戏里可以复活，可以重新来过，从而获得第二次机会。这种乐观的态度或者这种思考方式是非常重要的。

我认为在很多传统文化里，总会宣扬一种观念，即你只有一次机会，如果你搞砸，那就身败名裂了。但也许游戏可以给人们一种感觉，就是你可以犯错，你可以重新来过，你可以变得更好。第二次犯的错误比第一次少，第三次犯的错误又比第二次少。因此这种通过失败取得进步的理念，我认为对于创始人是非常重要的。

主持人：游戏设计中都会采取这种逐渐增加难度的方式。一开始游戏很简单，玩家会建立起信心。而如果一款游戏从极其困难的第一关开始，那就会让玩家感到挫败。

Aidan Gomez：在机器学习中，这就叫做课程式学习。首先，你要教模型做一些非常简单的事情，然后让它逐步处理更复杂的问题，以此为基础建立知识。

有趣的是，课程式学习的方法实际上在机器学习中失败了。我们现在是把最难的内容和最简单的内容同时扔给模型，让模型自己摸索。但对于人类来说，这种方式却非常有效，是一种我们学习的重要方式。

主持人：我想直接深入探讨这个问题，因为我认为这是每个人都在问的问题。

大家总是说只要投入更多的计算资源，性能就会提高。这是我们今天面临的最大瓶颈。你认为 Scaling Law 是真的吗？是真的有很大的提升空间，还是其他因素正在阻碍性能提升？

Aidan Gomez：这种方法改进模型最可靠，同时也是最笨的。如果一切方法都不奏效，那就让模型更大。对于有钱的人来说，这是一个很有吸引力的策略，因为它的风险极低。我认为这种方法是有道理的，只是我认为它极其低效。

如果我们看看过去一年半的情况。比如说，从 ChatGPT 发布到现在，甚至可以说从 GPT-4 发布到现在的情况。尽管 GPT-4 据称拥有 1.7 万亿个参数，但现在已经有参数量仅为 130 亿的模型能够达到甚至超过 GPT-4 的性能水平。这表明模型效率的提高比简单地增加参数规模更为重要。

主持人：那这种情况会持续下去吗？还是会在某个点上趋于平稳？

Aidan Gomez：我认为这肯定需要指数级的投入。你需要不断地加倍计算资源才能维持线性的智能增长，但我认为这种情况可能会持续非常非常长的时间。模型会不断变得更强大，但你会遇到经济限制，很少有人购买最初的 GPT-4，当然也很少有企业购买，因为它太大了，极其低效，运行成本太高。性能不够出色，不足以证明其价值。因此，我认为有很多压力促使我们开发更小、更高效的模型，通过数据和算法使其更强大，而不是仅仅因为市场力量而扩大规模。

模型战争下小公司的出路

主持人：我们将来是会生活在一个由垂直化的模型组成的世界里吗？这些模型可能更加高效、规模更小，是为特定用例设计的。还是说，会有三到五个更大的模型主宰一切？

Aidan Gomez：两种情况都会存在。过去几年我们观察到的一个模式是，人们喜欢用通用智能模型来做原型设计。他们不想用专门的模型来做原型。他们也不想花时间去微调模型，使其特别擅长他们关心的事情。他们想做的是直接抓取一个昂贵的大模型，用它做原型，证明可行性。然后再将其提炼成一个高效的、专注于他们特定需求的模型。这种模式确实已经出现了。所以我认为，我们将继续生活在一个多模型并存的世界里，有些模型专注且垂直化，而其他则完全水平化。

主持人：你提到了成本问题，需要翻倍计算力才能保持同样水平的智能增长。这个成本是惊人的。也许是我太年轻了，不记得过去的技术发展周期，但这似乎是技术领域前所未见的。我记得 OpenAI 每年要花费30亿美元。除非你是微软、亚马逊、谷歌或 Facebook 这样的巨头，否则你要怎么维持自己在这场竞赛中的地位呢？

Aidan Gomez：如果你只是在做单纯的规模扩张项目，你确实必须先成为科技巨头，或者成为它们的某种附属公司。但还有很多其他事情可以做。比如说，规模扩张是唯一的前进道路，还有数据创新、模型和方法创新的空间。

主持人：什么是数据创新，什么是模型和方法创新？

Aidan Gomez：好的，我们在开源领域看到的几乎所有主要进展都来自数据改进。模型变得更好是因为从互联网获取了更高质量的数据，使用了更好的网页抓取算法，解析这些网页，提取有用的部分，增加互联网特定部分的权重。因为网上有很多重复和垃圾内容，对吧？所以关键是要提取互联网中最有价值、知识最丰富的部分，并强调给模型。

此外还有合成数据，创建新数据的能力是超级可扩展的。这样你就可以获得数十亿个词或者上亿页的内容。但这些都不需要人类参与，完全由模型自己生成。这些创新，提高数据质量的能力，我认为是我们现在看到大多数进展的来源。

主持人：好的，这就是数据创新，那么方法和模型创新呢？

Aidan Gomez：这包括像新的强化学习算法之类的东西。现在有很多关于 Q* 及其可能性的传言。还有围绕搜索的想法，比如搜索解决方案。目前的情况是，假设我问模型一个问题，模型被期望立即给出正确的答案。这对模型来说是一个极高的要求，既然你不能问人类一个难题并期望他们立即给出答案，那也不能对模型这么做。它们需要时间思考。

我认为，对模型来说很明显的下一步是，你需要让它们有时间思考并解决问题。你需要允许它们失败。它们需要尝试某事，失败，理解为什么失败，然后回过头来再次尝试。所以目前，大模型还没有真正的问题解决能力。

主持人：这种问题解决能力，其实与推理能力是一回事，对吗？

Aidan Gomez：没错，正是如此。

主持人：为什么推理会这么难实现，为什么我们现在的模型还没有这种能力？

Aidan Gomez：我认为并不是推理本身很难。问题在于互联网上没有太多展示推理过程的训练数据。互联网上的大多数内容都是推理过程的最终结果。当你在网上写东西时，你通常不会展示你的思考过程。你只是呈现你的结论或想法，这背后其实凝结了大量的思考、经验和讨论。所以我们只是缺乏这样的训练数据。这种数据不容易获得，你必须自己构建。这就是像 Cohere、OpenAI 和 Anthropic 等公司现在正在做的事情，收集展示人类推理过程的数据。

主持人：你怎么看待与 OpenAI 的用户生成内容（UGC）策略的竞争？

Aidan Gomez：是的，那确实非常困难。特别是对企业客户来说，他们从不允许你用他们的数据进行训练。所以我们不能在任何客户的数据上训练模型，这些数据非常私密。他们的观点是，公司的数据就是他们的知识产权，他们的知识产权中包含太多商业机密。所以他们根本不愿意这这样做。

我对这种立场非常理解。所以对我们来说，我们的重点是合成数据。我们在这方面做了很多推动，同时也有人类标注，Scale AI 是我们的合作伙伴。我们内部有自己的人，但这是放在我们身上的负担，因为我们不是一家消费者公司。

我们必须自己生成这些数据。好处是我们更加专注，所以我们需要覆盖的面积更小。所以不是整个世界都来找我们，要求我们做可能的任何事情。而是企业有非常明确的模式，他们想要做的事情类型。就像他们想要自动化某些财务功能，或者他们想要自动化某些人力资源功能。所以范围大大缩小了，这让我们能够真正专注于这些部分。

主持人：十年后合成数据市场会是什么样子，是否会被两三家供应商主导?

Aidan Gomez：其实，我听说现在的大语言模型应用程序接口(API)市场主要是由合成数据主导的。人们主要在做的就是利用这些昂贵的大模型来创建数据，用于微调更小、更高效的模型。所以他们实际上是在提炼这些大模型。我不知道这作为一个市场有多可持续，但我肯定认为总会有新的任务、新的问题或对数据的新需求。无论这些数据来自模型还是人类，我们都必须满足这种需求。

卖模型是一个非常低利润的业务

主持人：OpenAI 如今在打价格战，而 Mark（此处指 Meta AI 的马克·扎克伯格）则在阐述开源和开放生态系统的价值。这些模型的价值是否在贬值？这是否是一场零和竞争？

Aidan Gomez：我认为如果有公司在接下来一段时间里只卖模型，那将会变得非常棘手、非常艰难。但反过来说，卖模型这业务不会是一个小市场。

主持人：请深入聊一聊，哪些公司只卖模型，哪些公司售卖服务？

Aidan Gomez：我不想点名。但我们 Cohere（Aidan 创立的公司）现在只卖模型。我们提供了 API，用户可以通过这个 API 访问我们的模型。我认为这种情况很快就会改变。产品格局和我们提供的内容会有变化，不是要远离这一点，而是要在这个基础上增加内容和产品组合。但如果你只卖模型，那将会很困难，因为价格战会让这个业务的利润归零，大家都在免费赠送模型。

这仍然会是一个大生意。卖模型能赚很多的钱，因为人们需要这项技术。它正在非常快速地增长。但至少现在，只卖模型的利润率将会极低。这就是为什么大家都在关注应用层的东西，价值正在芯片层累积，每个人都在花费惊人的金额购买芯片来构建这些模型。然后在上面的应用层，比如 ChatGPT 是按用户收费的，大约每月 20 美元（140 元人民币）。这似乎是在这个阶段价值积累的地方。我认为从长远来看，模型层是一个有吸引力的业务。但在短期内，按照现状，卖模型是一个非常低利润的业务。

主持人：让我们分解一下你提出的概念。

你刚才提到了芯片层。你如何看待 Cohere 目前在芯片上的支出，以及它随时间的变化占总支出的百分比？

Aidan Gomez：嗯，它变得多得多了（大笑），是的，所以现在它占我们支出的很大一部分，太多了。

主持人：你们和 NVIDIA 有直接的合作吗？

Aidan Gomez：不止是 NVIDIA，我们也和 AMD 关系密切，还在与许多正在开发新芯片的初创公司进行对话。我们也在 Google 的 TPU 上运行模型。

主持人：这是因为你不想出现单点故障吗？

Aidan Gomez：这是市场的需求。我们的客户希望能够在多种不同的平台上运行。他们想要选择权。他们不想被锁定在一个平台上。所以我们需要提供一个非常多样化的平台基础来运行。类似地，我们一直非常避免被锁定在一个云上，我们希望在每个云上都可用，这也是因为客户的选择。他们不想被锁定在一个供应商的垂直体系中。

主持人：我完全明白你的意思。你觉得每个公司都会在某种程度上垂直整合自己的技术栈，比如开发自己的芯片能力吗？我们最近看到苹果谈论了很多关于他们自身的垂直整合和掌控芯片层的内容。你认为这将是一个持续的趋势吗？

Aidan Gomez：我觉得会持续下去。目前，芯片的利润率非常高，市场上的选择却非常有限。不过，这种情况正在改变。我认为这种变化会比其他人想象的更快发生。我对此非常有信心。

主持人：你也注意到 GPU 的囤积情况发生了很大变化。之前确实存在真正的供应链短缺，而现在情况已经不同了。

Aidan Gomez：没错，芯片短缺正在减少。我认为现在明显会有更多选择可用，而且不仅仅是在推理方面。我觉得大家都知道，推理（即模型的应用）已经相当多样化了。实际上，在推理方面你已经有了很多选择，这与模型的训练不同，而是指模型的服务部署。在训练方面，情况一直是，基本上只有一家公司生产可用于训练大规模模型的芯片。这在今天仍然是事实。但实际上，现在已经不完全是这样了。

现在有两家公司可供选择。除了英伟达，我们还可以在 TPU 上训练大规模模型。这些现在实际上已经成为可用于超大规模模型训练的平台。我认为谷歌已经非常有说服力地证明了这一点。但我认为很快，AMD、Amazon Trainium 这些平台会准备好大展拳脚。

主持人：当你看到模型和实际计算的支出时，让我担心的是模型进展的速度远远快于数据中心的建设和计算能力的进展。所以，比如说一年后，我们是否会在 H100 或其他 18 个月前的计算机上运行最新的模型？模型进步和计算能力进步之间是否存在不匹配？供应链这个问题也非常有趣，你需要建立自己的数据中心吗？

Aidan Gomez：不，我们与其他公司合作。

主持人：有没有可能这种情况会改变？

Aidan Gomez：如果建立我们自己的数据中心对我们来说更便宜，我们就会去做。我们已经计算过了，从供应商那里得到的价格使得这不是一个真正有吸引力的选择。但我们这样做的另一个原因可能是，如果以后市场上出现了一种在成本方面非常有吸引力的芯片，到时候将没有供应商愿意为我们采购。

世界比我想的更晚发现 Transformer 的潜力

主持人：在早期，你们获取大量算力芯片时有遇到什么困难吗？现在情况有变化吗？

Aidan Gomez：我们已经做了五年了。所以那是在整个行业开始蓬勃发展之前很久。我们挺幸运的。

主持人：你预料到它会蓬勃发展吗？

Aidan Gomez：我的意思是，如果我没预料到它会蓬勃发展，我就不会创办这家公司了。但实际发生的方式确实和我想象的不太一样。它比我预期的来得晚，而且更突然。

主持人：因为你在 2017 年参与撰写了关于 Transformer 的论文，所以我猜你当时期望它会很快蓬勃发展起来?

Aidan Gomez：不，那时候还没有这种想法。2017 年，我是那篇 Transformer 论文的实习生。当时我还觉得这只是研究而已，就是创造一个新架构，把翻译分数提高 3%，仅此而已。我没想到这种架构会带来那么多后续发展，没想到过社区对它的热爱，还有真正把 Transformer 确立为构建 AI 的平台。这些我都没预料到。

反倒是语言建模和整个扩展项目，我原以为世界会更快地意识到这一点。它一开始非常明显，但之后又过了两三年，大家才醒悟过来，才开始席卷全球。

主持人：那个转折点是什么？是 ChatGPT 吗？

Aidan Gomez：完全是的，没错。就是 ChatGPT，它把技术直接放到了用户面前。所以你不用向你爸妈或其他人解释它是什么，而是让他们可以直接坐下来，跟这个东西聊天，亲身体验与这些模型对话的感觉。

主持人：你认为聊天是最适合消费者的界面吗？

Aidan Gomez：对某些东西来说是的。我觉得对其他东西来说，GUI，就是传统的可视化用户界面，还是挺不错的。

我认为这真的要看情况。把聊天作为一切的界面，我觉得没什么意义。我不想每次都必须明确地输入指令才能完成事情。有时我就想点点按钮，浏览一下界面，就把事情搞定。所以我不认为GUI已经过时了，我们也不应该用文本框替换所有东西。但我确实认为聊天界面非常吸引人。当然，语音也是如此。语音简直太神奇了。第一次看到模型能像人类一样写出令人信服的文本回复时，那种感觉真的很神奇。

2017 年的那时候，就在我们提交论文后不久。我们开始用维基百科训练语言模型。我们从这些模型中取样。它可以写出跟人类写的一样令人信服的维基百科页面。所以那是一个非常神奇的时刻，计算机某种程度上“醒来”了，开始跟我们对话。然后下一个突破是对话式界面。不只是我提交指令，模型返回响应，而是通过聊天与模型进行对话。

主持人：OpenAI 正在大力投资语音技术。你认为他们将语音选为下一代消费者交互界面的信心是正确和合理的吗?

Aidan Gomez：非常合理。我的意思是，当你亲身体验与这些模型进行语音对话时，那种感觉真的很震撼。当你听到模型表现出情感和语气变化时，你会觉得不可思议。你能听到它在说话之前吸气。你能听到它的嘴唇发出声音。这种体验有一种难以言喻的吸引力。直到你亲自尝试过，才能体会到它有多么引人入胜。

没人在乎上一代的模型水平

主持人：我从小就听说，我们总是高估短期内的发展，而低估长期的发展。你觉得这种说法在当前情况下适用吗？或者说，语音技术其实正在快速发展。新一代大语言模型 GPT-5 也即将到来，无论是三个月还是六个月，都来得挺快的。你认为我们在多大程度上低估了短期发展?

Aidan Gomez：有两个方面。首先，在模型上取得进展变得越来越难。它变得更困难，更费劲，成本更高，因为曾经有一段时间，模型还不够聪明 —— 我说不够聪明，其实是指不够复杂。你也可以直接理解为“不够智能”，以至于我可以随便找个人过来，说“跟这个模型聊聊，找找错误”，他们就能做到并改进它。

但最后模型发展到了一定程度，普通人要找出知识空白或类似的问题就变得有点难了。你不得不开始求助于领域专家。一开始是便宜的初级专家，比如计算机科学的学生可以教模型点东西，生物学的学生也可以教模型点东西。然后模型开始变得很厉害，差不多达到了那个知识水平。你只能去更专业、更稀缺的人才库，让他们把自己的知识教给模型。所以教模型新知识变得更麻烦，成本更高。

主持人：瓶颈在哪呢？就像学习语言，你可以在六个月内学会一门语言的 95%，但要达到 98% 的熟练程度，可能需要五年。那在什么程度上，人们会开始说“为了那额外的 0.5% 的提升，又要花十亿美元，这也太不划算了吧”？

Aidan Gomez：所有东西的成本都在飞速下降。比如计算成本，FLOP（浮点数）的价格随着时间推移下降得超级快。这就是为什么今天比 2017 年甚至两年前能搞出更大模型的原因。

主持人：考虑到这点，你不觉得对新创业公司进入模型领域来说其实并不太晚吗？虽然大家都在说：“哎呀，创业公司进入模型领域已经太晚了。” 但实际上，考虑到成本障碍的降低，这不是意味着创业公司比以前更容易进入这个领域了吗?

Aidan Gomez：是啊。每一年，构建去年的模型的成本都会降低 10 倍或 100 倍。我们有了更好的数据，更便宜的算力。所以它确实降低了开发前一代模型的门槛。但现实是，没人在乎前一代模型。没人想要它们。去年的模型根本没有市场。跟今年的模型比，它们基本上就是废铁。任何形式的技术发展都会让上一代很快过时。

主持人：我觉得区别在于，开发 V1 版本的软件产品可能花费 1000 万美元，而要将其更新为稍微好一点的 V2 版本，可能需要再花费 100 万或 200 万美元。但在这里，开发一个需要 30 亿美元，开发第二个则需要 50 亿美元。这种增量已经不是简单的增量，而是数量级的提升。

Aidan Gomez：我不确定下一代产品一定会更便宜。我认为在芯片等非常复杂的技术领域，开发每一代产品的成本确实越来越高。尽管如此，我们还是会去做，因为这是值得的。

改进这些模型越来越难，阻力越来越大。第二个奇怪的现象是，因为这些模型越来越智能，人类，或者更准确地说，每个人区分它们的能力变得越来越困难。你无法区分不同代际之间的差异，因为你不够精通医学、数学、物理学，无法感受到变化。对于你我这样的普通人来说，模型已经达到了一定的基本知识水平。

所以当我们与模型互动时，我们感受到的是不同代际间的相似体验。但实际上，这些代际之间在某些特定的能力或纯粹的智能方面发生了巨大的变化。

那么，现在是否值得继续投入大量资金去推动模型发展？我认为绝对值得。对某些人来说，这确实是值得的。为什么呢？因为即使对你我这样的消费者来说，我们不在乎模型是否掌握了 C 星代数（C-star algebras）和量子物理学，这对我们的实际体验没有影响。但对量子物理研究者来说，这些知识却非常有用。通过提供工具，我们能够在这些领域取得更多进展。

此外，我们是否还应投资于下一代技术，比如开发一种新材料让飞船能够更高效地进入轨道？我认为这也是应该的。或许对你来说，飞船是否能更便宜地进入轨道无关紧要，但对某些人来说，这很重要，他们愿意付钱，也有市场存在。这就是进步得以持续的方式。

最佩服的是 OpenAI

主持人：现在有很多公司被收购或兼并，最终被整合进去。我认为现在大家都意识到，云服务是一个不断增长的现金牛。当你看到 Azure、Google Cloud 等云服务的持续增长率和盈利能力时，你会发现大多数提供模型的小公司都会被这些大型云服务提供商收购。你是否认为在未来三到五年内，这种情况有很大的可能性会发生？

Aidan Gomez：三年内就有可能了。我认为这一领域将会经历一次大规模整合，并且这种情况可能已经开始了。很多模型构建者已经被收购了——例如 Adept（一家 AI 初创公司）已经被亚马逊收购。

主持人：Inflection AI（市值高达 40 亿美元的人工智能初创公司）也被微软收购了。

Aidan Gomez：而且我认为未来会有更多类似的收购。这一领域肯定会发生整合。当你成为云服务提供商的附属公司时，这是一件非常危险的事情。为什么？因为这对商业不利。作为一家公司，要筹集资金，你需要说服一些只关心资本回报率的投资者。他们给你资金，然后你利用这些资金创造价值。但当你从云服务提供商那里筹集资金时，算法就完全不同了。

主持人：你认为过去几年我们看到的模型投资，能让风险投资者赚到钱吗？

Aidan Gomez：Cohere 的投资者们会的。他们会赚很多钱。

主持人：（大笑）那回顾过去，你是为那些相信你的人赚了很多钱而感到高兴，还是觉得，“该死，当时我给得太多了”？

Aidan Gomez：不，我的意思是，投了 Cohere 的投资者，直至今天都还在坚持。我们的第一个投资者是 Radical Ventures 的 Jordan Jacobs，他现在仍在我们董事会。我称他为 Cohere 的第四位联合创始人。他与我们一起建立了这家公司，并且仍然非常活跃，积极参与公司的建设。所以我不后悔。

主持人：最新的估值是多少？

Aidan Gomez：媒体报道过，55 亿美元。

主持人：当你看收入与估值的对比时，会让你感到压力吗？你会不会觉得，“哎呀，我们还有很长的路要走”？就像我看自己的健康状况时一样，我会觉得，“哎呀，我还有很长的路要走。”

Aidan Gomez：我认为这肯定是一种压力，是一种好的压力。认为我们实际上处于一个比很多同行好得多的位置，因为我们的估值没有像很多其他公司那样疯狂。这是我的看法。我们仍然需要成长才能匹配这个估值，但我非常有信心市场是强劲的。很多人需要这些模型。在利润率方面，目前确实有压力，因为价格战和免费模型的普及。但这会随着时间的推移而改变，Cohere 的产品组合也将随之演变。

主持人：你最尊敬的是谁？

Aidan Gomez：我会说是 OpenAI。

主持人：为什么？

Aidan Gomez：他们开辟了道路。他们对 Scaling Law 有一种近乎不合理的信念。我记得在 GPT-1 之前，Transformer 刚出来的时候，我和 Ilya Sutskever（前 OpenAI 首席科学家）讨论过这些事情，因为他在多伦多的学术圈子里很活跃。他在 Jeffery Hinton 手下学习，来自多伦多，家人也在多伦多。关于模型扩展的想法早在他脑海中形成，早在他真正开始追求这个想法的几年之前。这种信念造就了我们今天所处的世界，这是一种客观上神奇的技术，如今已经对所有人开放。我真的很钦佩 Ilya。

没什么人担心 AI 会不会失败，

而是担心“谁在用我的数据进行训练”

主持人：你认为 OpenAI 是真心专注打造 AGI，还是认为他们其实是双管齐下，一方面追求长期的 AGI，另一方面也更注重为企业和更广泛的消费者创造短期的有价值产品？

Aidan Gomez：至少在最近，或者说在新的 OpenAI 中，他们更像是一家产品公司。他们在非常专注地打造一款消费者产品。这是他们的目标，并且它正在奏效。人们喜欢 ChatGPT，它现在已经是家喻户晓的名字。所以我认为在消费领域，他们会成为一家产品公司。而且我认为他们必须成为这样一家公司，才能支付他们想要建造的东西的费用。

主持人：随着 AI 技术的融入，我们是否会看到公司能够通过增加 AI 功能来从每个用户身上获得更多收入？现在每家公司都在成为 AI 公司，他们的所有产品都融合了 AI 功能，因此用户可以使用 AI 创建任何内容。

但显然，每次查询 API 都要花钱，这就意味着他们的成本增加了，而收入却保持不变。我们真的能通过 AI 增加每个用户的收入，还是只是单纯创造了更好的客户体验？

Aidan Gomez：我认为现在有两种不同的策略。有些公司保持 AI 功能的价格不变，并利用它来推动业务扩展。而像微软、Salesforce 和 Notion 等公司，则为 AI 功能收费，并因此扩大了业务规模。这两种策略都没问题，而且非常合理。只要给用户提供尽可能有用的产品即可。目前不必担心利润率，因为 AI 的成本正在迅速下降。我认为这是合理的。

主持人：目前阻碍企业采用 AI 的最大障碍是什么？

Aidan Gomez：主要是对技术的信任问题，也就是安全性。每个人都对当前的状况非常担忧。没什么人担心 AI 会不会失败，而是担心“谁在用我的数据进行训练”。所以他们非常害怕有人会拿走他们的数据，利用它进行训练，然后让他们陷入某种安全漏洞，或者失去知识产权。我认为这是一个非常合理的担忧，因为确实有人在用用户数据进行训练。除了说“我们不会使用任何新的合成数据”，你还能做些什么来让他们放心吗？

所以，我们 Cohere 的部署模型就是为此而设的。我们专注于私有部署，比如在他们的虚拟私有云（VPC）内或本地部署。这意味着它完全运行在他们自己的硬件上，非常私密。我们不会要求他们将数据传送给我们。我们处理后会将模型的响应返回给他们。我们说的是，“我们会将我们的模型带到你的数据所在的地方。” 且我们无法看到任何数据。

当我和一些人交流时，他们对此非常矛盾。在金融服务业，我发现人们正在远离云端，转身建立起自己的数据中心容量。而在其他领域，似乎仍然是“我们需要迁移到云端，自己拥有这些数据中心并不划算。” 所以我认为这可能取决于你所看的行业。

主持人：你观察到其他领域对 AI 有什么完全错误的理解吗？我认为企业教育曲线还处于非常早期的阶段。他们对 AI 有什么误解？

Aidan Gomez：有很多人害怕 AI 出错。这些模型会出现幻觉，大家认为这意味着技术注定会失败。有时它会产生幻觉，无法反映现实。模型确实会产生幻觉。尽管幻觉率已经显著下降，但它们仍有可能编造一些内容或犯错误。

我们生活在一个人类与 AI 共存的世界，而人类也经常产生幻觉。我们会出错，会记错事情。所以，我们生活在一个对错误具有一定容错性的世界中。

主持人：现在有没有幻觉基准测试？

Aidan Gomez：其实是有的。Victora 就有一个，还有一些其他的幻觉基准测试。

主持人：那幻觉的下降速度与模型进展速度是同步的吗？

Aidan Gomez：是否同步我不确定，但幻觉确实在变得越来越少。使用 RAG 技术，会让幻觉数量呈现一个跨越式的变化。给不知道的人解释一下，RAG 是“检索增强生成”（retrieval augmented generation）的意思。它的基本思路是你有一个模型，可以查询知识库，而这个知识库可能是你的内部文件或搜索引擎。它可能会向搜索引擎发出查询，获取结果，然后将其作为回答的一部分，并引用其来源。它会说，“我之所以做出这个陈述，是因为我在这里看到了。”

所以现在你可以审核它模型的答案是否正确，并且这种设置的副作用是，它大大减少了撒谎的情况。它不再需要编造太多内容，因为它有参考资料可以依赖。

使用别人的模型构建产品，

会天然处于劣势

主持人：我们现在是否还处于企业试探性使用预算的阶段？大家都在说，“我们现在只是在试探性使用预算。” 这说得过去吗？还是我们实际上已经进入了主流阶段？

Aidan Gomez：情况真的开始转变了。去年确实是一个概念验证的年份。大家都在测试，试试看效果如何。但最近发生了一个大的转变，现在企业非常迫切地想把这项技术投入生产。我认为很多企业担心会措手不及。他们已经花了一年时间进行概念验证和测试，现在他们正在全力以赴，想要把这些技术投入生产，改造他们的产品，增强他们的员工队伍。

主持人：对企业来说，最主要的应用场景是什么？现在每个董事会都在问，“你的 AI 战略是什么？”

Aidan Gomez：让模型成为整个员工队伍的合作伙伴或同事。这是最流行的应用场景。我认为 Copilot 是实现这一目标的正确方式。我认为 Copilot 很棒，它通过一个助手来增强员工队伍的想法是正确的。但它再次被局限在一个生态系统内，它只能接入 Office 和微软的产品套件。但企业不只是使用微软产品，他们使用微软处理电子邮件、文档和电子表格，然后使用 Salesforce 进行客户关系管理（CRM），使用 SAP 进行企业资源计划（ERP），他们还有一些人力资源管理（HRM）工具，还有他们自己开发的内部软件。

如果你真的想增强员工队伍，你需要有一个开发这些助手或智能体的平台，该平台不依赖于特定的工具集，并且能够理性地优先考虑人们实际使用的工具集和市场实际使用的工具集。所以我认为这个任务不会由 Copilot 完成。

主持人：你刚刚提到了“智能体”（Agent）这个词。智能体是风险投资领域最热门的话题之一。你认为围绕智能体、智能行为的炒作是有道理的吗？

Aidan Gomez：这种炒作 100% 是合理的。大家对这些模型的愿景是它们将能够独立完成工作。这将极大地改变生产力。一旦你有了一个可以独立长时间执行任务的模型，它就不再是“我马上帮你做一件事然后就完了”，而是“在接下来的六个月里，我会不断地为你带来销售机会”之类的任务。比如为你进行外部拓展。智能体完全改变了一个组织可以做的事情。所以这种炒作是合理的。

我想批评的点是，这种工作最好是在模型构建者内部完成还是在外部完成？谁最有能力真正构建这个产品？为什么最好先在模型内部完成？这完全取决于模型的质量。这完全取决于模型。模型是智能体背后的推理者，因此，用户必须能够在这个层面进行干预。如果你无法实际改进模型以更好地处理你关心的事情，如果你不是那个构建模型的人，而只是模型的使用者，那么在构建这个产品时，你在结构上就处于劣势。

主持人：你认为今天谁处于劣势？大家都在谈论并对 Salesforce（一家云计算服务公司，曾经历过类似于近日 Windows 全球蓝屏的事故）表示怀疑。但我觉得 Marc Benioff（Salesforce 创始人）这个人不容小觑。

Aidan Gomez：是的，我也不会低估他。他非常出色，我认为他非常清楚面对他们的威胁，我不认为他会让这种威胁发生。所以我不认为 Salesforce 会出什么大问题。

还有一点是，人们往往忽略了企业软件的黏性。企业软件的替换并不多见，它通常会存在几十年。要取代一家企业软件公司真的非常困难。我认为对于真正变革性的新的消费者体验是有机会的。消费者对某一个提供商的忠诚度远低于企业用户。他们会盲从朋友的选择，会根据性价比挑选产品。所以，如果有人能够利用 AI 提供比现有产品好得多的服务，消费者会轻松地转移。

AI 技术仍未到达瓶颈

主持人：目前哪家公司的研究做得最好？

Aidan Gomez：Cohere。

主持人：除了 Cohere？

Aidan Gomez：我认为目前研究力量相当分散，学术大咖各奔东西。但以前是非常集中的，比如 Google Brain 和 DeepMind。

主持人：那谷歌现在为什么会落后呢？

Aidan Gomez：其实他们并没有落后。我们在发布 Transformer 论文的两周后就开始训练语言模型了。所以从技术和研究的角度来看，Google Brain 绝对没有落后。我不想评论 Google，但我可以说真正重要的是产品愿景以及想象技术可以带来什么的能力。这不仅仅是技术开发本身的问题，而是你能用技术做什么的愿景。即使你组织内部有人看到了这种愿景，你是否具备支持他们实现这个愿景的能力？还是他们不得不去其他地方实现它？我认为这些都是你必须问的问题。

最后还有一个问题，那就是 Scaling Law，这个观点认为模型只会随着我们投入的增加而变得越来越好，并且我们应该投入不仅仅是 10 倍，而是 100 倍，甚至 1000 倍的资源来构建模型。这是一个非常冒险、不确定、有点疯狂的赌注。所以我完全理解 Google 的决定，而 OpenAI 则是赌对了。

主持人：你认为 OpenAI 做的最好的选择是什么？

Aidan Gomez：就是我刚刚说的，Scaling Law。很多人都不相信这一点，当时有很多反对的声音。大家认为这是一个愚蠢的、无意义的追求目标，但他们有信心坚持下去。

主持人：你认为目前人们对 AI 社区最大的误解是什么？以及在接下来的 12 到 24 个月内，我们在这个领域的前景如何？

Aidan Gomez：我认为现在有一种流行的说法是“我们已经达到瓶颈了，模型没有新的进展，一切都在放缓。” 我真的认为这是错误的。

这不仅仅是从“我们需要 10 倍的计算能力”这种角度来看，而是从方法学的角度来看。所以当我谈论推理器、规划器以及能够尝试、失败、从失败中恢复并执行需要很长时间才能完成的任务的模型时，对于技术人员来说，这些是显而易见的事情，但今天的技术中还没有这些能力。我们还没有时间把注意力转向这些方面并将这些能力加入模型中。在过去的一年多时间里，人们一直在关注这些问题，并且这些能力将很快准备好投入生产。我认为这将带来能力方面的巨大变化。

AI 无法替代人类，

甚至无法取代多少岗位

主持人：能从投资者的角度给我们一点建议吗？现在应该投什么？

Aidan Gomez：我认为产品领域，应用领域仍然非常有吸引力。基于这项技术会有新的产品出现，这些产品会改变社交媒体。人们喜欢与这些模型对话，使用时间非常长。

主持人：你认为这真的好吗？你在一个非常健康自然的环境中长大。你提到你的家人也在英国。我相信你在现实能更多地见到他们。我不希望我的孩子在一个与人工智能系统交谈比与人类交谈更多的世界中成长。我不希望他们从与模型的对话中获得满足感。

Aidan Gomez：其实你可能错了。我认为你可能希望你的孩子与一个非常有同情心、极其聪明、知识渊博、安全可靠的智能体交流。这个智能体可以教他们东西，和他们玩耍，不会对他们感到厌倦，不会对他们发脾气，不会欺负他们，不会挑剔他们，也不会给他们带来不安全感。

但人类是不可替代的，绝对不可替代。我们不会突然都开始和聊天机器人约会，然后人类出生率骤降，这种情况不会发生。一个人类伴侣对我来说比任何聊天机器人都要宝贵得多，无论聊天机器人多么有吸引力。人类的价值远远超过机器人。这也是为什么我认为我们无法在工作场所替代人类。AI 只会是一个增强工具，人类的生产力只会提高，工作也会变得更多。

想想销售吧，如果我是被机器人推销的话，我不会买。就是这么简单。我不想和机器人打交道。某些简单的购买可能可以，但对于那些对我和我的公司重要的购买，我希望有一个人类在另一端对交易负责。当事情出错时，我需要一个有权力的人来干预。我完全看不到这些极端情况的可能性。

主持人：我认为在采用新技术时，总会有一定程度的岗位替代，这是正常现象，但确实会出现某种形式的替代。不过，这种替代不会达到“我们中有 80% 的人失业”那种程度。我在这方面完全同意你的观点。

不过，我确实担心低端岗位的替代，比如某个公司可能失去 70% 或 80% 的客服团队。

Aidan Gomez：肯定会有局部的岗位替代，但总体上将是增长，而不是替代。当然，某些岗位确实容易受到技术的影响。具体来说，客服肯定是其中之一。不过最终，仍然需要有人类来处理这些工作，只是数量不会像今天这么多。但客服工作本身确实很难，心理上非常艰难。你会听到人们对你大喊大叫。如果你曾听过客户服务电话的录音，你会发现这是一项情感上非常消耗的工作，就像大型社交网络上的内容审核一样，这在很多方面都会造成情感上的创伤。每天你醒来，去上班，被人责骂几个小时，还得不断道歉。这就是客服的日常。我觉得在这方面，也许我们可以让模型处理那些对话，而人类可以介入并帮助处理那些真正需要人类客服的对话。比如，他们有一个无关情绪发泄的问题需要解决。这样就有机会让他们的生活变得更好。

主持人：有什么是 AI 今天做不到的，但你认为在三年内它将做到，而且会带来完全的变革？

Aidan Gomez：就 AI 总体来说，我认为机器人、具身智能领域将会有重大突破。成本需要下降，但确实已经在下降了。接下来我们需要的是更稳健的模型。

主持人：你为什么对机器人领域的突破如此看好？

Aidan Gomez：因为很多障碍已经消除了。以前这些机器人内部的推理器和规划器，作为它们背后的软件，往往非常脆弱，你必须为每个任务编写程序，而且这些程序非常依赖于特定的环境。比如，你必须有一个完全按照固定布局设计的厨房，尺寸完全一致，不能有任何变化。是的，所以它非常脆弱。而在研究方面，使用基础模型和语言模型，他们实际上已经开发出了更好的规划器，这些规划器更加动态，能够更自然地理解和推理周围的世界。

所以我认为，目前已经有大约 30 家仿人机器人初创公司在这方面工作，但很快就会有人攻克通用仿人机器人的难题，这些机器人将会便宜且坚固耐用。所以这将是一个巨大的转变。我不知道这是否会在未来五年或十年内实现，但应该会在这个范围内。

快问快答

主持人：过去 12 个月里，你在哪个问题上的看法改变最大？

Aidan Gomez：我觉得是数据的重要性。我以前严重低估了它。我以为这只关乎规模。在 Cohere 内部发生的很多验证点彻底改变了我对构建这项技术的看法。所以现在我认为最重要的是数据的质量。比如，在数十亿个例子中，出现一个错误的例子就会有很大的影响。模型对数据的敏感性真的有点不可思议。每个人都低估了这一点。

主持人：你们现在总共筹集了多少钱？

Aidan Gomez：10 亿美元。

主持人：这可是一大笔钱。哪一轮融资最容易？

Aidan Gomez：可能是第一轮。

主持人：那轮是最快的吗？

Aidan Gomez：是的。我们就通过一次对话，然后就拿到了几百万美元的资金尝试一下。所以我认为那一轮可能是最容易的。但当你试图筹集 5 亿美元时，事情会更复杂一些。

主持人：当你看到 5 亿美元打进账户时，你会不会掐自己一下，觉得不敢相信？因为我现在管理着基金，但我们是分阶段调用资金的。并不是一下子拿到 5 亿美元，而是分几年调用……

Aidan Gomez：而且利息非常可观。我懂。我确实有些不敢相信。毫无疑问，Cohere 让我的思维在经济和金钱方面发生了变化。5 亿美元现在对我来说已经不算多了 —— 相比我的竞争对手，这确实不算多。

主持人：这让你担心吗？

Aidan Gomez：不，我的意思是，这是我们策略的一部分。如果我们想要那种交易，我们也可以选择，但我们的策略是追求独立并自行完成这件事。

主持人：如果你可以选择任何一个人加入董事会，你会选择谁？为什么？

Aidan Gomez：Mike Volpi 和 Jordan Jacobs，我现有的董事会成员。Mike 非常出色。感觉他好像见识过一切。我几乎可以带着任何问题去找他，他总能提供非常丰富的经验和很好的建议。

主持人：Geoffery Hinton 和 Yann LeCun（两人都是图灵奖得主，且都被誉为 AI 教父），哪个是你的“好兄弟”？

Aidan Gomez：绝对是 Geoff。我和 Geoff 的个人关系比和 LeCun 的要近得多。

主持人：你觉得 LeCun 太乐观了吗？

Aidan Gomez：不，我其实更认同 LeCun 和他对 AI 的看法。Geoff 更倾向于末日论，认为这项技术会毁灭世界。而 LeCun 则更加乐观，我更倾向于他的方向。不幸的是，LeCun 现在天天在推特纠缠 Elon Musk，这显得 Geoff 非常聪明，更有思想和深度。Geoff 思考问题非常深刻。

主持人：你们现在在伦敦有团队了。你一家都住在伦敦。大家经常谈论欧洲的衰落。我之前邀请了 Founders Fund 的 Deleon，他说西欧将很快成为第三世界国家或类似的国家集合。而且这种消极情绪正在愈演愈烈。你现在在伦敦和欧洲建立了这么出色的工程研究团队，你有何感想？

Aidan Gomez：英国在欧洲其他国家中脱颖而出。这里有一种对技术的乐观态度，以及愿意投资并做出必要的改变以支持生态系统发展的意愿。顺便说一下，我的母亲是英国人，父亲是西班牙人，我拥有双重国籍，所以我也非常欧洲化，每年夏天都在那里度过，家人也在那儿。不幸的是，欧洲的文化对科技非常敌视。在欧洲人看来，对科技的解决方案就是监管。但现在法国也变得更加雄心勃勃，在欧洲和全球舞台上大声疾呼我们需要更加进步。不过，这可能需要十年时间。

主持人：Cohere 现在是面对面办公还是远程办公？

Aidan Gomez：Cohere 诞生于疫情期间，所以我们基本上是远程办公。我们的成员遍布各地，不过也不算完全远程，我们在多伦多、伦敦、纽约和旧金山都有办公室。这些地方无疑是公司的核心所在。而且人们每天都会到办公室来。面对面办公的工作效率确实好得多。面对面工作的效率提升是无法量化的。

主持人：有什么问题是别人从来没有问过你，但你觉得应该问的？

Aidan Gomez：很少有人问我希望未来走向何方。我经常被问到某项具体的事物会将会走向何方，或是经常被问到关于技术的潜在风险。人们在思考 AI 时心中充满了恐惧，但很少讨论我们拥有的机会。我觉得人们对这个话题谈论得不够多。

主持人：那你希望它走向何方？

Aidan Gomez：我认为当今世界供应极其有限，我们今天所拥有的几乎每一种奢侈品都来自于提高生产力、增加供应、使物品更加丰富、价格更加便宜的技术发展。因此，我真正关心的是这项技术如何推动全球生产力，并使人类更加高效，能够做更多的事情。我觉得这个话题一点都不吸引人。生产力提升总是被忽视了。

主持人：但是如果将生产力提升 5% 应用到 NHS（国民健康服务体系）上，这将对国家的状态、国家的预算、这个国家的医疗保健以及数百万人的日常生活产生巨大的影响。

Aidan Gomez：是的。比如在加拿大，实际 GDP 并没有真正增长。有人称现在为“失落的十年”，因为他们的实际人均 GDP 没有增加，人们没有变得更富裕，物资并没有更加丰富。过去十年间，你买得起的东西没有增加。因此，这种停滞会导致社会动荡，人们开始争夺有限的资源。这种局面让我非常担忧。我们社会现在的首要任务应该是生产力和增长。