2024年AI十大展望：GPT-4领衔大模型变革，谷歌拉响警报，训练数据告急_人工智能未来十大趋势(1)

本文链接：https://blog.csdn.net/2401_84164503/article/details/138391037

据说，GPT-4有可能是多模态的，除文本生成之外，它还可以生成图片、视频以及其他数据类型的输入。这意味着GPT-4能够像DALL-E一样根据输入的文本提示词（prompt）生成图像，或者是可以输入视频然后通过文本的形式回答问题。

多模态GPT-4的发布可能是一个重磅消息。**但是它更可能和以前的GPT模型一样是纯文本模型，它在语言任务上的表现将重新定义SOTA。**具体来说GPT-4会是什么样的呢？那就是它在记忆（保留和参考前期对话信息的能力）和摘要（提取和精简大规模文本的能力）这两个语言领域的性能会有跨越式提升。

**2.**训练大型语言模型将逐渐开始耗尽数据

数据是新时代的石油这种说法早就已经是陈词滥调了，但这样说还不足以表明数据的重要性：因为石油和数据都是有限的，都有消耗殆尽的一天，在AI领域，语言模型对数据的需求量最大，数据耗尽的压力也更大。

正如前面提到的，DeepMind的Chinchilla work等研究已经表明，构建大型语言模型（LLM）最有效的方式不是把它们做得更大，而是在更多的数据上对其进行训练。

但是世界上有多少语言数据呢？更准确地说有多少语言数据达到了可以用来训练语言模型的要求呢？实际上，现在网络上大多数的文本数据并没有达到要求，不能用来训练大型语言模型。

对于这个问题，我们很难给出确切的答案，但是根据一个研究小组（https://arxiv.org/pdf/2211.04325.pdf）给出的数据，全球高质量文本数据的总存量在4.6万亿到17.2万亿个token之间。这包括了世界上所有的书籍、科学论文、新闻文章、维基百科、公开代码以及网络上经过筛选的达标数据，例如网页、博客和社交媒体。最近的另一项研究数据（https://www.lesswrong.com/posts/6Fpvch8RR29qLEWNH/chinchilla-s-wild-implications）显示，数据总数大约为3.2万亿个token。

DeepMind的Chinchilla模型是在1.4万亿个token上训练的。也就是说，在这个数量级内，我们很有可能耗尽世界上所有有用的语言训练数据。这可能成为人工智能语言模型领域持续进步的一大障碍。许多前沿AI研究人员和企业家私下里都对此忧心忡忡。

随着研究人员开始寻求解决数据短缺这一迫在眉睫的问题，预计2023年对这方面的关注度会增加。针对这一问题，合成数据是一种可能的解决方案，尽管该如何操作这一方法还未可知。还有另一种可能的方法，那就是系统性地转录会议上的讲话，毕竟口头交流代表着还有大量未捕获的文本数据。

作为世界领先的LLM研究机构，人们十分好奇OpenAI在其即将发布的GPT-4研究中会如何应对这一挑战，同时，大家也期待着可以获得一些启发。

**3.**一些消费者开始将完全自动驾驶作为日常出行模式

在多年预热炒作却一再失信之后，最近自动驾驶汽车领域出现了一些少有人注意的新变化：真正的无人驾驶汽车时代已经悄悄来临。

现在在旧金山，你可以下载Cruise应用程序（这个程序和Uber或Lyft的APP差不多），通过这个APP你可以叫到真正的没有司机辅助的无人驾驶汽车带你在街道上穿行。

目前，这些无人驾驶汽车仅在夜间服务，服务时间是晚上22:00点到早上5:30，但是Cruise已经准备好了要在旧金山提供全天候服务，这个计划预计将在几周后实行。另一边Cruise的竞争对手Waymo紧跟其后，也开始在旧金山投放无人驾驶汽车。

2023年，人们将快速习惯robotaxi服务，作为一种方便、可行的交通服务方式，人们一开始会感到新颖、奇怪，然后会快速习惯robotaxi的存在，直到司空见惯。街道上无人驾驶汽车的数量和使用它们的人数将会激增。简而言之，无人驾驶汽车即将进入商业化和规模化阶段。

无人驾驶汽车的推广将以城市为单位，逐个进行。在旧金山的基础上，来年可能会新增至少两个面向公众投放无人驾驶汽车的美国城市。比较理想的候选城市有凤凰城、奥斯汀、拉斯维加斯和迈阿密。

**4.**AI绘画工具Midjourney将筹集风险投资资金

OpenAI的DALL-E，Stability AI（和其他贡献者）的Stable Diffusion和Midjourney是目前最著名、最有影响力的三个文生图的AI平台。

2019年，OpenAI从微软处获得了10亿美元的投资，并且目前正在商讨筹集更多资金。几个月前，Stability AI获得了1亿美元的投资，而且已经开始寻求更多投资。

相比之下，Midjourney没有任何外部投资。不过，Midjourney的用户和发展速度增长极快，目前为止，它拥有近600万用户和相当可观的收入。但是其网站显示Midjourney仍然是一个“小型自筹资金”组织，只有11名全职团队成员。

大卫·霍尔茨（David Holz）是Midjourney的创始人兼首席执行官，他曾是Leap Motion的联合创始人兼首席技术官，Leap Motion曾是一家飞速发展的虚拟现实创业公司，这家公司在2010年代筹集了近1亿美元的风险投资，之后公司发展状况迅速恶化，最终被收购。据称这段失败的经历让霍尔茨拒绝接受外部资金。到目前为止，Midjourney已经拒绝了很多投资者。

然而，面对公司的迅猛发展、激烈的竞争以及大量的市场机会，我们推测霍尔茨将在2023年开始为Midjourney筹集投资。否则，Midjourney将快速在这场由其引发的生成式人工智能淘金热中落伍。

**5.**谷歌作为主流搜索引擎的地位将面临挑战

搜索引擎是现代互联网体验的核心，是我们浏览和访问数字信息的主要方式。现在的大型语言模型可以进行复杂级别的读和写，这在几年前几乎是不可思议的，这会对我们的搜索方式产生深远影响。

在ChatGPT出现之后，重新定义搜索的对话式搜索（conversational search）引起了人们的广泛注意。对话式搜索让我们可以与AI智能体进行动态对话以找到要查找的内容，不用再像传统的搜索引擎一样先输入要查询的内容，然后返回一长串链接，比如现在谷歌搜索的做法。

对话式搜索具有广阔的发展前景，但是它还有一个亟待解决的大问题，那就是搜索结果不够准确，只有解决了这个问题，对话搜索才能发展起来。目前对话式LLM的准确性还不够，因为它们有时会给出与事实不符的信息。

最近OpenAI首席执行官Sam Altman称，“现在在重要的事情上，我们还不能依赖ChatGPT”。大多数用户也不会接受不能百分百保证结果准确的搜索引擎，即使它的准确率可以达到95%甚至99%。2023年，研究人员面临的主要挑战之一就是，以一种可扩展且稳健的方式来解决这个问题。

一批发展势头良好的初创公司正在对谷歌的搜索引擎发起挑战，它们希望通过LLM和对话界面重塑消费者的搜索方式，比如You.com，Character.AI，Metaphor 和Perfucity等公司。

但是，LLM不仅仅只是会改变消费者的互联网搜索方式，它还会改变其他搜索类型。

比如企业搜索（组织搜索和检索私有数据的方式）同样也处于新黄金时代的风口浪尖。由于大规模矢量化的出现，LLM首次实现了真正的语义搜索：它能够根据基本概念和上下文而不是简单的关键字来索引和访问信息。这将使企业搜索更加强大和高效。像Hebbia和Glean这样的初创公司正在使用大型语言模型引领改变企业搜索的潮流。

下一代搜索引擎将不仅限于文本。人工智能的最新进展为多模态搜索提供了新的可能性：即跨数据模式查询和检索信息的能力。

因为视频占据了互联网数据总量的80%左右，所以视频搜索代表了最大的发展机会。想象一下，如果我们可以轻松且准确地搜索视频中的某个片段、某个人、某个概念或者某个动作，这将是什么样的局面？Twelve Labs是一家初创公司，它构建了一个多模态AI平台，以实现精细化的视频搜索和理解。

自谷歌在互联网时代崛起以来，搜索领域就几乎没怎么发生过变化。2023年，有了大语言模型，该领域将发生巨变。

**6.**开发人形机器人将吸引大量注意力、人才以及资金，2023年将有几个新的人形机器人项目启动

人形机器人可能是好莱坞电影对AI进行夸张化的极端代表，比如说电影《机械姬》和《我，机器人》。人形机器人发展迅速，并逐渐成为现实。

为什么要打造人形机器人呢？原因很简单，因为我们现实世界的大部分架构都是为了人类而打造，如果我们想利用机器人在工厂、购物中心、办公室和学校这样的场所自动完成复杂活动，最有效的方法就是让机器人拥有和人类一样的外形。这样，机器人就可以应用到多种场景中，且无需适应周围环境。

今年9月，特斯拉在人工智能日推出了擎天柱（Optimus）机器人，这大大推动了人形机器人领域的发展。埃隆·马斯克表示，擎天柱最终会比汽车业务更有价值。然而，擎天柱机器人要想完全成熟，还任重而道远。但是，当特斯拉将所有资源都投入到优化擎天柱这项任务时，能够取得的进展是无法估量的。

同样地，许多具有发展前景的初创公司也推动着人形机器人领域的发展，包括Agility robotics、Halodi robotics、Sanctuary AI以及Collaborative robotics。

随着人形机器人产业竞争愈演愈烈，预计2023年会有更多的公司加入到这场角逐中，包括初创企业和一些知名公司（如丰田、三星、通用汽车、松下）。这类似于2016年的自动驾驶汽车，当越来越多的人开始意识到汽车行业拥有巨大的市场机会时，次年将会有大量人才和资本涌入该领域。

**7.**MLOps的新版本：LLMOps将登台亮相

当某种新的技术平台出现时，相应的需求和机会也会随之出现，比如说用以支持新平台的工具和基础设施。风险投资家们通常把这些辅助工具视为“镐头和铲子”（以迎接即将到来的淘金热）。

近年来，初创企业界最热门的当属广为人知的MLOps机器学习工具。初创公司开始一蜂窝地研究MLOps，并以令人咋舌的估值筹集到大量资金：Weights & Biases（获得2亿美元融资，平台估值达10亿美元）、Tecton（获得1.6亿美元融资）、Snorkel（获得1.38亿美元融资，平台估值达10亿美元）、OctoML（获得1.33亿美元融资，平台估值达8.5亿美元）等等。

如今，我们目睹了新一代人工智能技术平台——大型语言模型（LLMs）的问世。与预训练语言学习模型（pre-LLM）相比，大型语言模型具有独特的工作流程、技能组件和发展潜能，代表了人工智能的新范式。通过API或者开源，人们可以很容易获得大量预训练模型，这完全改变了人工智能产品。因此，注定会出现一套新的工具和基础设施。

我们预测LLMOps将成为新的流行趋势，**它代表着新一代人工智能的镐头和铲子。**以新一代LLMOps产品为例，包括基础模型微调工具、无代码LLM部署、GPU访问与优化、提示词实验、提示词链以及数据合成与数据增强。

**8.**基于或引用AlphaFold的研究项目数量将会激增

2020年底，DeepMind公司首次推出了AlphaFold平台，破解了生命的一大谜团：即蛋白质的折叠问题。AlphaFold能够仅从蛋白质的一维氨基酸序中准确地预测出蛋白质的三维形态。这是一个里程碑式的成就，解决了困扰研究人员几十年的问题（AlphaFold代表了人工智能历史上最重要的成就）。