一、LLM简介

路过的研究生

已于 2024-04-16 13:17:34 修改

阅读量1k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： LLM应用开发文章标签：人工智能

于 2024-04-16 12:51:28 首次发布

本文链接：https://blog.csdn.net/qq_43392011/article/details/137819782

LLM应用开发专栏收录该内容

6 篇文章

订阅专栏

大语言模型（LLM）凭借其强大的上下文学习、涌现能力、基座模型支持和对话交互，正在改变NLP领域。它们在预训练和微调中展现出广泛应用潜力，但也带来伦理与资源挑战。LLM被视为通用人工智能的早期形态，引发对未来技术发展的讨论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、什么是LLM（大语言模型）

LLM的概念

LLM通常指的是百亿级别参数的语言模型，它们在海量的文本数据上进行训练，从而获得对语言深层次的理解。目前，国外的知名 LLM 有 GPT-3.5、GPT-4、PaLM、Claude 和 LLaMA 等，国内的有文心一言、讯飞星火、通义千问、ChatGLM、百川等。

二、 LLM的能力和特点

2.1 LLM的能力

2.1.1 涌现能力（emergent abilities）

LLM中三个典型的涌现能力：

上下文学习能力：允许语言模型在提供自然语言指令或多个任务示例的情况下，通过理解上下文并生成相应输出的方式来执行任务，而无需额外的训练或参数更新。
指令遵循：通过使用自然语言描述的多任务数据进行微调，也就是所谓的指令微调。LLM 被证明在使用指令形式化描述的未见过的任务上表现良好。这意味着 LLM 能够根据任务指令执行任务，而无需事先见过具体示例，展示了其强大的泛化能力。
逐步推理：LLM 通过采用思维链（CoT, Chain of Thought）推理策略，利用包含中间推理步骤的提示机制来解决这些任务，从而得出最终答案。据推测，这种能力可能是通过对代码的训练获得的。

涌现能力是区分大语言模型（LLM）与以前的预训练语言模型（PLM）最显著的特征之一。

2.1.2 作为基座模型支持多元应用的能力

基座模型（foundation model）：是一种全新的 AI 技术范式，借助于海量无标注数据的训练，获得可以适用于大量下游任务的大模型（单模态或者多模态）。这样，多个应用可以只依赖于一个或少数几个大模型进行统一建设。

2.1.3 支持对话作为统一入口的能力

让大语言模型真正火爆的契机，是基于对话聊天的 ChatGPT。业界很早就发现了用户对于对话交互的特殊偏好，陆奇在微软期间，就于 2016 年推进过“对话即平台（conversation as a platform）” 的战略。此外，苹果 Siri 、亚马逊 Echo 等基于语音对话的产品也非常受欢迎，反映出互联网用户对于聊天和对话这种交互模式的偏好。

2.2 LLM的特点

大语言模型具有多种显著特点：

巨大的规模： LLM 通常具有巨大的参数规模，可以达到数十亿甚至数千亿个参数。这使得它们能够捕捉更多的语言知识和复杂的语法结构。
预训练和微调： LLM 采用了预训练和微调的学习方法。首先在大规模文本数据上进行预训练（无标签数据），学习通用的语言表示和知识。然后通过微调（有标签数据）适应特定任务，从而在各种 NLP 任务中表现出色。
上下文感知： LLM 在处理文本时具有强大的上下文感知能力，能够理解和生成依赖于前文的文本内容。这使得它们在对话、文章生成和情境理解方面表现出色。
多语言支持： LLM 可以用于多种语言，不仅限于英语。它们的多语言能力使得跨文化和跨语言的应用变得更加容易。
多模态支持：一些 LLM 已经扩展到支持多模态数据，包括文本、图像和声音。使得它们可以理解和生成不同媒体类型的内容，实现更多样化的应用。
伦理和风险问题：尽管 LLM 具有出色的能力，但它们也引发了伦理和风险问题，包括生成有害内容、隐私问题、认知偏差等。因此，研究和应用 LLM 需要谨慎。
高计算资源需求： LLM 参数规模庞大，需要大量的计算资源进行训练和推理。通常需要使用高性能的 GPU 或 TPU 集群来实现。