2024年度最佳、最流行的大型语言模型(LLMs)_聊天机器人

大型语言模型(LLMs)是人工智能文本处理的主要类型,也现在最流行的人工智能应用形态。ChatGPT是迄今为止最著名的使用LLM的工具,它由OpenAI的GPT模型的特别调整版本提供动力。但还有许多其他聊天机器人和文本生成器,包括从Google Bard和Anthropic的Claude到Writesonic和Jasper,它们都是建立在LLMs之上的。

自2010年代末以来,众多的LLM一直在研究实验室中酝酿,如果不是ChatGPT的出现,它们可能还会继续待在实验室里孤芳自赏,但在ChatGPT发布并展示出色实力后,它们也冲出实验室,进入了现实世界。 有些 LLM 已经开发了多年,有些则迅速发展起来以赶上最新的炒作周期,还有更多的是开源研究工具。

2024年最佳LLMs

目前大概有几十个主要的LLMs,还有数百个由于某种原因而具有争议的,将它们全部列出几乎是不可能的,而且无论如何,由于LLMs的发展速度很快,它可能会在几天内过时。

对于“最佳”这个词,我们不妨持保留态度:我已经试图通过提供一个最重要、最有趣和最流行的 LLM(和 LMM)列表来缩小范围,而不一定是那些在基准测试中表现优异的(尽管其中大多数是这样)。 我还主要关注您可以使用的 LLM,而不是那些超级有趣的研究论文的主题,因为我们喜欢在这里保持实用性。

在开始之前还有最后一件事:很多人工智能应用都没有列出它们所依赖的LLM。有些我们可以猜测,或者从他们的营销材料中可以清楚地看出,但对于大多数应用,我们只是不知道。这就是为什么你会在下面的表格中看到“未披露”——这只是意味着我们不知道任何使用LLM的主要应用,尽管可能有一些应用使用了它。

LLM

开发者

热门应用

参数数量

访问方式

GPT

OpenAI

Microsoft, Duolingo, Stripe, Zapier, Dropbox, ChatGPT

175 billion+

API

Gemini

Google

Some queries on Bard 

Nano: 1.8 & 3.25 billion; others unknown

API

PaLM 2

Google

Google Bard, Docs, Gmail, and other Google apps

340 billion

API

Llama 2

Meta

未披露

7, 13, and 70 billion

Open source

Vicuna

LMSYS Org

Chatbot Arena

7, 13, and 33 billion

Open source

Claude 2

Anthropic

Slack, Notion, Zoom

Unknown

API

Stable Beluga

Stability AI

未披露

7, 13, and 70 billion

Open source

StableLM

Stability

未披露

7, 13, and 70 billion

Open source

Coral

Cohere

HyperWrite, Jasper, Notion, LongShot

未知

API

Falcon

Technology Innovation Institute

未披露

1.3, 7.5, 40, and 180 billion

Open source

MPT

Mosaic

未披露

7 and 30 billion

Open source

Mixtral 8x7B

Mistral AI

未披露

46.7 billion

Open source

XGen-7B

SalesforceSalesforce

未披露

7 billion

Open source

Grok

xAI

Grok Chatbot

未知

聊天机器人


什么是LLM?

LLM,或大型语言模型,是一种通用的人工智能文本生成器,是所有人工智能聊天机器人和人工智能写作生成器的后台系统。

LLMs具有超级的自动完成能力。除去花哨的界面和其他变通方法,他们所做的更本任务是接受一个提示,并使用一串貌似合理的后续文本生成一个答案。建立在LLMs之上的聊天机器人不会寻找关键词,以便他们可以用固定答案回答,相反,他们会尽最大努力理解被问到的问题,并适当地回答。

这就是LLM真正厉害的原因:相同的模型(有或没有一点额外的培训)可以用来回答客户的询问,撰写营销材料,总结会议记录,以及做很多其他的事情。

LLMs是如何工作的?

早期的LLM,比如GPT-1,在生成几句话后就会崩溃,开始生成无意义的句子,但如今的LLM,比如GPT-4,可以生成数千个有意义的单词。

为了达到这个目的,LLMs在巨大的语料库上进行了训练。不同的LLM之间的细节略有不同,这取决于开发人员在充分获得他们正在使用的材料的权利方面有多仔细,但作为一般规则,你可以假设他们在相当于整个公共互联网和每本已出版的主要书籍上进行了训练。这就是为什么LLMs可以生成在如此广泛的主题上听起来如此权威的文本。

从这些训练数据中,LLM能够使用高维向量来模拟不同单词(或者实际上是单词的一部分,称为标记)之间的关系。这是所有事情变得非常复杂和数学化的地方,但基本原理是每个单独的标记都有一个唯一的ID,相似的概念被分组在一起。然后,这被用来生成一个神经网络,一种基于人脑工作方式的多层算法,这是每个LLM的核心。

神经网络有一个输入层,一个输出层和多个隐藏层,每个隐藏层都有多个节点。正是这些节点计算了输入之后应该出现什么单词,不同的节点有不同的权重。例如,如果输入字符串包含单词“Apple”,神经网络将不得不决定接下来应该出现“Mac”或“iPad”之类的单词,或者“pie”或“crumble”之类的单词,或者完全是其他的单词。当我们谈论LLM有多少参数时,我们基本上是在比较底层神经网络中有多少层和节点。一般来说,节点越多,模型能够理解和生成的文本就越复杂。

当然,在开放的互联网上训练的人工智能模型几乎没有方向,听起来就像噩梦一样。它可能也不会非常有用,所以在这一点上,LLMs进行了进一步的培训和微调,以引导它们生成安全和有用的响应。其中一个主要的工作方式是通过调整不同节点的权重,尽管还有其他方面。

2024年度最佳、最流行的大型语言模型(LLMs)_AGI_02

所有这些都是说,虽然LLMs是黑盒子,但它们内部发生的事情并不神奇。一旦你对它们的工作方式有了一点了解,就很容易理解为什么它们如此擅长回答某些类型的问题。这也很容易理解为什么它们倾向于编造(或产生幻觉)随机的事情。

LLMs可以用于什么?

LLM 之所以强大,主要是因为它们能够被推广到许多不同的情境和用途。相同的核心 LLM(有时稍微调整一下)可以用于完成许多不同的任务。虽然它们所做的一切都是基于生成文本,但它们被提示执行任务的具体方式会改变它们所具有的特性。

以下是LLMs通常用于的一些任务:

  • 通用聊天机器人(如ChatGPT和Google Bard)
  • 根据您的业务文档和数据进行培训的客户服务聊天机器人
  • 将文本从一种语言翻译成另一种语言
  • 将文本转换为计算机代码或将一种语言转换为另一种语言。
  • 生成社交媒体帖子、博客文章和其他营销文案
  • 情绪分析
  • 调节内容
  • 校对和编辑写作
  • 数据分析

还有成百上千的其他事情,我们还只是处在当前人工智能革命的早期。

但也有许多LLMs做不到的事情,但其他类AI模型可以做到。

  • 解释图片
  • 生成图像
  • 在不同格式之间转换文件
  • 在网上搜索
  • 执行数学和其他逻辑操作

当然,有些LLM和聊天机器人可以做这些事情,但在大多数情况下,会有另一个AI服务介入协助,当一个模型处理几种不同类型的输入时,它实际上不再被认为是一个大型模型,而是成为一个叫做多模态大型模型(large multimodal model)的东西(尽管在某种程度上,它只是语义)。

有了这些背景知识,让我们转向 LLM 本身。

2024年最佳LLMs

GPT

2024年度最佳、最流行的大型语言模型(LLMs)_AGI_03

  • 开发人员:OpenAI
  • 参数:超过1750亿
  • 访问:API

OpenAI的生成式预训练Transformer(GPT)模型开启了最新的人工智能炒作周期。目前有两个主要模型:GPT-3.5-turbo和GPT-4。GPT是一个带有API的通用LLM,它被各种各样的公司使用,包括微软、Duolingo、Stripe、Descript、Dropbox和Zapier,为无数不同的工具提供动力。不过,ChatGPT可能是其能力最受欢迎的演示。

你也可以将Zapier连接到GPT或ChatGPT,这样你就可以直接从技术栈中的其他应用程序中使用GPT。这里有更多关于如何自动化ChatGPT的信息,或者你可以从这些预制工作流之一开始。

Gemini
  • 开发人员:谷歌
  • 参数:Nano有18亿和32.5亿版本,其他未知
  • 访问:API

谷歌Gemini是谷歌的人工智能模型家族。三个模型-Gemini Nano,Gemini Pro和Gemini Ultra-旨在不同设备上运行,从智能手机到专用服务器。虽然能够生成像LLM一样的文本,但Gemini模型也能够处理图像、音频、视频、代码和其他类型的信息。

Gemini Pro现在为谷歌聊天机器人Bard的一些查询提供动力,并通过谷歌AI Studio或Vertex AI向开发人员提供。Gemini Nano和Ultra将于2024年推出。

PaLM 2

2024年度最佳、最流行的大型语言模型(LLMs)_AIGC_04

  • 开发人员:谷歌
  • 参数:3400亿
  • 访问:API

PaLM 2是谷歌的LLM,专为自然语言任务设计,支持Google Bard上的大多数查询,以及谷歌在Docs和Gmail等应用程序中的许多其他AI功能。

Llama 2

2024年度最佳、最流行的大型语言模型(LLMs)_聊天机器人_05

  • Meta 开发人员:元
  • 参数:70亿、130亿和700亿
  • 访问:开源

Llama 2是Meta(Facebook和Instagram的母公司)的一个开源LLM系列,它是最流行和最强大的开源LLM之一,你可以从Github上下载源代码,因为它对研究和商业用途是免费的,许多其他的LLM都以Llama 2为基础。

Vicuna
  • 开发人员:LMSYS Org
  • -参数:70亿、130亿和330亿
  • -访问:开源

Vicuna是一个基于Meta的Llama LLM构建的开源聊天机器人,它被广泛用于人工智能研究,并作为Chatbot Arena的一部分,Chatbot Arena是由LMSYS运营的聊天机器人基准。

Claude 2

2024年度最佳、最流行的大型语言模型(LLMs)_人工智能_06

  • 开发人员:Anthropic 
  • 参数:未知
  • 访问:API

Claude 2可以说是GPT最重要的竞争对手之一。它旨在为企业客户提供有用、诚实、无害和关键的安全使用。因此,Slack、Notion和Zoom等公司都与Anthropic合作。

与所有其他专有LLM一样, Claude 2只能作为API提供,尽管它可以根据您的数据进行进一步培训,并根据您的需要进行微调。您还可以将Claude连接到Zapier,以便从所有其他应用程序中自动执行Claude 。以下是一些预制的工作流,以帮助您开始。

Stable Beluga and StableLM
  • 开发人员:Stability AI
  • 参数:70亿、130亿和700亿
  • 访问:开源

Stability AI是Stable Diffusion背后的团队,它是最好的AI图像生成器之一,他们还发布了几个基于Llama的开源LLM,包括Stable Beluga和StableLM,尽管它们远不及图像生成器受欢迎。

Coral
  • 开发人员:Cohere
  • 参数:未知
  • 访问:API

与Claude 2一样,Cohere的Coral LLM是为企业用户设计的。它同样提供了一个API,并允许组织在其自己的数据上训练模型的版本,以便能够准确地回答客户的查询。

Falcon
  • Developer: Technology Innovation Institute开发商:技术创新研究所
  • 参数:13亿、75亿、400亿和1800亿
  • 访问:开源

Falcon是一个开源的LLM家族,在各种AI基准测试中表现良好。它拥有高达1800亿个参数的模型,并在某些任务中优于PaLM 2、Llama 2和GPT-3.5。它在允许的Apache 2.0许可下发布,因此适合商业和研究用途。

MPT
  • 开发人员:
  • 参数:70亿、300亿
  • 访问:开源

Mosaic的MPT-7B和MPT-30B LLM是两个更强大、更受欢迎、更商业化的LLM。有趣的是,它们不是建立在Meta的Llama模型之上,与许多其他开源模型不同。MPT-30B的性能优于原始的GPT-3,并以Apache 2.0许可证发布,就像Falcon一样。有几个不同的版本可供选择,对聊天等进行微调,最有趣的是,一个7B版本的微调用于生成长篇小说。

Mixtral 8x7B
  • 开发人员:Mistral
  • 参数:467亿
  • 访问:开源

Mistral的Mixtral 8x7B使用一系列子系统来有效地超越更大的模型.尽管有显著更少的参数(因此能够运行得更快或在更弱的硬件上),它能够超越Llama-70B并匹配或击败GPT-3.5.它也是在Apache 2.0许可下发布的.

XGen-7B
  • 开发商人员:Salesforce
  • 参数:70亿
  • 访问:开源

Salesforce的XGen-7B并不是一个特别强大或流行的开源模型,它的性能与其他拥有70亿个参数的开源模型差不多。但我仍然认为它值得包括在内,因为它突出了有多少大型科技公司拥有人工智能和机器学习部门,可以开发和推出自己的LLM。

Grok
  • 开发人员:xAI
  • 参数:未知
  • 访问:聊天机器人

Grok,一个根据X(前身为Twitter)的数据训练的聊天机器人,并不真正能凭借自身的优点在这个列表上占据一席之地,因为它还没有被广泛使用,也不是特别好。尽管如此,我在这里列出它是因为它是由埃隆·马斯克(Elon Musk)创办的人工智能公司xAI开发的。虽然它可能不会在人工智能领域掀起波澜,但它仍然得到了大量的媒体报道,所以它的存在值得知道。

为什么会有这么多的LLMs?

直到一两年前,LLM还局限于研究实验室和人工智能会议的技术演示。现在,它们为无数的应用程序和聊天机器人提供动力,并且有数百种不同的模型可供您自己运行(如果您有计算机技能)。我们是如何走到这一步的?

有几个因素在起作用。其中一些主要的因素是:

  • 通过GPT-3和ChatGPT,OpenAI证明了人工智能研究已经达到了可以用来构建实用工具的地步,因此许多其他公司也开始这样做。
  • LLM需要大量的计算能力来训练,但基于现有的算力能力,通常可以在几周或几个月内完成。
  • 有很多开源模型可以重新训练或适应新模型,而无需开发一个全新的模型。
  • 人工智能公司投入了大量资金,因此对于任何拥有技能和知识的人来说,都有很大的激励来开发任何类型的LLM来这样做。

未来LLMs的期望是什么

我认为在不久的将来,我们将看到更多的LLM,特别是来自大型科技公司。亚马逊、IBM、英特尔和NVIDIA都在开发、测试或提供给客户使用的LLM。它们不像我上面列出的模型那么热门,普通人也不太可能直接使用它们,但我认为,期待大型企业开始广泛部署它们是合理的。

我还认为,我们将看到更多高效的LLM,专门用于智能手机和其他轻量级设备。谷歌已经在Gemini Nano上暗示了这一点,它在Google Pixel Pro 8上运行了一些功能。Mistral的Mixtral 8x7B等开发表明,一些技术使小型LLM能够与大型LLM有效竞争。

另一个即将到来的大事是大型多模态模型(large multimodal models or LMMs 即 LMMs)。这些模型将文本生成与其他模态相结合,如图像和音频,因此您可以询问聊天机器人在图像中发生了什么,或者让它用音频回答。GPT-4 Vision(GPT-4V)和谷歌的Gemini模型是第一个可能被广泛部署的LMM中的两个,但我们肯定会看到更多。

三年前,我绝对不认为我们会有像ChatGPT这样强大的人工智能,也许几年后,我们会有通用人工智能(AGI)。