什么是大型语言模型（LLM）？

AI产品经理

于 2024-08-07 21:41:30 发布

阅读量415

点赞数 18

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/lvaolan168/article/details/141001646

版权

大型语言模型是一种人工智能算法，它使用深度学习技术和大量数据集来理解、总结、生成和预测新内容。生成式AI 一词也与 LLM 密切相关，LLM 实际上是一种生成式 AI，专门设计用于帮助生成基于文本的内容。

几千年来，人类发展出口语来交流。语言是所有形式的人类和技术交流的核心;它提供了传达思想和概念所需的单词、语义和语法。在人工智能世界中，语言模型具有类似的目的，为交流和生成新概念提供了基础。

第一个 AI 语言模型的根源可以追溯到 AI 的早期。Eliza 语言模型于 1966 年在麻省理工学院首次亮相，是 AI 语言模型的最早示例之一。所有语言模型首先在一组数据上进行训练，然后利用各种技术来推断关系，然后最终根据训练的数据生成新内容。语言模型通常用于自然语言处理（NLP）应用程序，其中用户以自然语言输入查询以生成结果。

LLM 是 AI 中语言模型概念的演变，它极大地扩展了用于训练和推理的数据。反过来，它大大提高了 AI 模型的能力。虽然没有一个普遍接受的数字来说明用于训练的数据集需要多大，但 LLM 通常至少有 10 亿或更多的参数。

_参数_是一个机器学习术语，用于训练它的模型中存在的变量，可用于推断新内容。

现代 LLM 出现在 2017 年，并使用 transformer 模型，即通常称为 transformer 的神经网络。凭借大量的参数和 transformer 模型，LLM 能够快速理解并生成准确的响应，这使得 AI 技术在许多不同的领域中广泛适用。

一些 LLM 被称为_基础模型_，这是斯坦福大学以人为中心的人工智能研究所于 2021 年创造的一个术语。基础模型如此庞大且具有影响力，以至于它可以作为进一步优化和特定用例的基础。

GPT-4 是一个 LLM，就其参数数量而言，它使所有前辈相形见绌。

LLMs的例子

以下是市场上排名前 10 位的 LLM 列表，根据互联网研究按字母顺序列出：

Bidirectional Encoder Representations from Transformers, commonly referred to as Bert.
Claude.
Cohere.
Enhanced Representation through Knowledge Integration, or Ernie.
Falcon 40B.
Galactica.
Generative Pre-trained Transformer 3, commonly known as GPT-3.
GPT-3.5.
GPT-4.
Language Model for Dialogue Applications, or Lamda.

为什么 LLM 对企业变得很重要？

随着人工智能的不断发展，其在商业环境中的地位越来越占主导地位。这可以通过使用 LLM 和机器学习工具来展示。在编写和应用机器学习模型的过程中，研究表明，简单性和一致性应该是主要目标之一。确定必须解决的问题也很重要，理解历史数据和确保准确性也很重要。

与机器学习相关的好处通常分为四类：效率、有效性、体验和业务发展。随着这些技术的不断涌现，企业对这项技术进行了投资。

大型语言模型如何工作？

LLM 采用涉及多个组件的复杂方法。

在基础层，LLM 需要在大量数据（有时称为_语料库_）上进行训练，这些数据的大小通常为 PB 级。训练可以采取多个步骤，通常从无监督学习方法开始。在这种方法中，模型是在非结构化数据和未标记的数据上训练的。在未标记的数据上进行训练的好处是，通常有更多的可用数据。在这个阶段，模型开始推导出不同单词和概念之间的关系。

对于一些LLM来说，下一步是通过一种自我监督学习的形式进行训练和微调。在这里，已经进行了一些数据标记，帮助模型更准确地识别不同的概念。

接下来，LLM 在经历 transformer 神经网络过程时进行深度学习。transformer 模型架构使 LLM 能够使用自注意力机制理解和识别单词和概念之间的关系和联系。该机制能够为给定的项目（称为_令牌_）分配分数（通常称为_权重_），以确定关系。

一旦 LLM 经过训练，就存在一个基础，在此基础上可以将 AI 用于实际目的。通过带有提示的查询 LLM，AI 模型推理可以生成响应，该响应可以是问题的答案、新生成的文本、摘要文本或情感分析报告。

Transformer 模型的架构图

大型语言模型是做什么用的？

LLM 越来越受欢迎，因为它们对一系列 NLP 任务具有广泛的适用性，包括以下内容：

文本生成。 在LLM接受过培训的任何主题上生成文本的能力是一个主要的用例。
译本。 对于接受过多种语言培训的 LLM 来说，从一种语言翻译成另一种语言的能力是一个共同的特征。
内容摘要。 总结块或多页文本是 LLM 的一个有用功能。
重写内容。 重写一段文本是另一种能力。
分类和分类。 LLM能够对内容进行分类和分类。
情绪分析。 大多数 LLM 可用于情感分析，以帮助用户更好地理解一段内容或特定响应的意图。
对话式 AI 和聊天机器人。 LLM 可以以一种通常比老一代 AI 技术更自然的方式实现与用户的对话。

对话式 AI 最常见的用途之一是通过聊天机器人，聊天机器人可以以任意数量的不同形式存在，用户在查询和响应模型中进行交互。使用最广泛的基于 LLM 的 AI 聊天机器人是 ChatGPT，由 OpenAI 开发。ChatGPT 目前基于 GPT-3.5 模型，但付费订阅者可以使用更新的 GPT-4 及GPT-4o LLM。

大型语言模型的优势是什么？

LLM 为组织和用户提供了许多优势：

可扩展性和适应性。 LLM 可以作为定制用例的基础。在 LLM 之上的额外培训可以为组织的特定需求创建一个微调的模型。
灵活性。 一个 LLM 可用于跨组织、用户和应用程序的许多不同任务和部署。
性能。 现代 LLM 通常具有高性能，能够生成快速、低延迟的响应。
准确性。 随着 LLM 中参数数量和训练数据量的增长，转换器模型能够提供越来越高的精度。
易于培训。 许多 LLM 是在未标记的数据上训练的，这有助于加速训练过程。
效率。 LLM 可以通过自动执行日常任务来节省员工时间。

大型语言模型的挑战和局限性是什么？

虽然使用 LLM 有很多优点，但也存在一些挑战和限制：

开发成本。 为了运行，LLM 通常需要大量昂贵的图形处理单元硬件和海量数据集。
运营成本。 在培训和发展期之后，主办组织运营LLM的成本可能非常高。
偏见。 在未标记的数据上训练的任何 AI 都存在偏见的风险，因为并不总是清楚已知的偏见已经消除。
道德问题。 LLM 可能会存在数据隐私问题并创建有害内容。
可解释性。 对于用户来说，解释 LLM 如何能够产生特定结果的能力并不容易或显而易见。
幻觉。 当 LLM 提供不基于训练数据的不准确响应时，就会发生 AI 幻觉。
复杂性。 现代 LLM 具有数十亿个参数，是极其复杂的技术，故障排除可能特别复杂。
故障令牌。 自 2022 年以来，导致 LLM 故障的恶意设计的提示（称为_故障令牌_）是新兴趋势的一部分。
安全风险。 LLM 可用于改善对员工的网络钓鱼攻击。

大型语言模型有哪些不同类型？

有一组不断发展的术语来描述不同类型的大型语言模型。常见的类型如下：

零样本模型。 这是一个在通用数据语料库上训练的大型通用模型，能够为一般用例提供相当准确的结果，而无需额外训练。GPT-3 通常被认为是零样本模型。
微调模型或特定于域的模型。 在零样本模型（如 GPT-3）之上进行额外训练可以导致微调的、特定于领域的模型。一个例子是 OpenAI Codex，这是一个基于 GPT-3 的编程特定领域的 LLM。
语言表示模型。 语言表示模型的一个例子是 Google 的 Bert，它利用了深度学习和非常适合 NLP 的转换器。
多模态模型。 最初，LLM 专门针对文本进行调整，但使用多模态方法，可以同时处理文本和图像。GPT-4 是此类模型的一个例子。

大型语言模型的未来

LLM 的未来仍然由开发该技术的人类编写，尽管未来也可能有 LLM 自己编写的未来。下一代LLM不太可能是人工智能或任何意义上的感知能力，但它们将不断改进并变得“更聪明”。

LLM 还将继续扩展他们可以处理的业务应用程序。它们在不同上下文中翻译内容的能力将进一步提高，这可能会使它们更容易被具有不同技术专长水平的业务用户使用。

LLM将继续在越来越大的数据集上接受训练，并且这些数据将越来越多地被更好地过滤以评估准确性和潜在的偏见，部分原因是增加了事实核查功能。未来的LLM也有可能在提供归因和更好地解释给定结果是如何产生的方面比现在的一代做得更好。

通过为各个行业或功能开发的特定领域的 LLM 提供更准确的信息是大型语言模型未来的另一个可能方向。OpenAI 用来训练 ChatGPT 的技术，例如从人类反馈中强化学习等技术的扩展使用，也有助于提高 LLM 的准确性。还有一类基于被称为_检索增强生成_概念的LLM–包括谷歌的Realm，它是检索-增强语言模型的缩写–它将能够在非常特定的数据语料库上进行训练和推理，就像今天的用户如何在一个网站上专门搜索内容一样。

此外，我们还在进行优化 LLM 所需的整体规模和训练时间的工作，包括开发 Meta 的 Llama 模型。Llama 2 于 2023 年 7 月发布，其参数不到 GPT-3 的一半，仅为 GPT-4 的一小部分，尽管其支持者声称它可以更准确。

另一方面，大型语言模型的使用可能会在组织中推动新的影子 IT 实例。首席信息官将需要实施使用防护措施并提供培训，以避免数据隐私问题和其他问题。LLM 还可能使攻击者能够编写更有说服力和更真实的网络钓鱼电子邮件或其他恶意通信，从而带来新的网络安全挑战。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：