白话LLM

最新推荐文章于 2025-05-13 20:33:05 发布

大模型研究院

最新推荐文章于 2025-05-13 20:33:05 发布

阅读量851

点赞数 22

文章标签：人工智能 agi 数据挖掘机器学习搜索引擎大模型

本文链接：https://blog.csdn.net/l01011_/article/details/146110908

版权

大型语言模型（Large Language Model，LLM）是一种经过海量文本数据训练的人工智能模型，可以理解和生成类似人类语言的文本。相比传统的机器学习模型，LLM具备更强的通用语言能力，能在零样本（Zero-shot）或少样本（Few-shot）的情况下完成多种任务，如回答问题、撰写文章、编写代码等。本文介绍了LLM的基本概念、技术细节、训练方式、工作原理以及提示词工程和RAG/Agent等相关内容。

1、基础概念：LLM是什么？

LLM的定义：大型语言模型是一种深度学习模型，通常基于Transformer架构，训练自海量的文本数据，能够预测下一个词并生成连贯的语句。它属于基础模型（Foundation Model）的一种，具备广泛迁移能力，可以经过微调适应多种下游任务。与传统机器学习模型（往往针对单一任务训练）不同，LLM在训练时不需要针对某个特定任务打上标签的数据，而是通过在海量未标注文本上的自监督学习来获得对语言的普遍理解。因此，一个训练良好的LLM往往能一专多能，在对话、问答、翻译、文本生成等多领域展现出能力，而传统模型通常一次只能做好一件事(如机器翻译、实体识别、垃圾邮件检测等)。

核心术语解释：

• 字典（Vocabulary）：模型所能识别的词汇表集合。实际上，LLM并不直接处理自然语言中的每个词，而是使用一个有限的词汇列表。每个词或子词片段被预先分配一个唯一的ID，这个列表就称为词汇表。例如，GPT系列模型使用约5万个词片段的词汇表。较大的词汇表能减少拆分的片段数，但也会增加模型规模。

• Token（标记）：文本被切分后的最小单元，每个token对应词汇表中的一项。分词（Tokenization）是将输入字符串拆解为token序列的过程。例如句子“I heard a dog bark”可能被切成 [“I”, " heard", " a", " dog", " bark"] 这样的标记序列，每个标记都有其对应的ID 。注意：token通常不等同于字面上的单词，一个长单词可能拆成多个token，一个短词也可能和空格一起构成一个token。

• Embedding（嵌入向量）：LLM会将每个token映射为一个高维向量表示，这个向量称为词嵌入。嵌入向量捕捉了词语的语义关系——模型在训练过程中通过统计哪些token经常一起出现，来调整这些向量的方向和距离，使得意义相近或经常同现的词在向量空间中距离较近。例如，“猫”和“狗”的嵌入向量距离可能接近，而“猫”和“汽车”的距离则较远。嵌入是LLM理解文本语义的基础，除了供模型内部计算外，还常用于向量数据库中，以实现语义搜索等功能。

• Context Size（上下文窗口大小）：LLM在一次处理中能够接收的最大token数量。也就是模型输入和输出加起来能涵盖的token长度。常以“多少K”来表示，例如“GPT-3.5有4K上下文窗口”意味着最多约4096个token 。上下文窗口限制了模型每次能够考虑的文本长度。如果输入过长，需要截断或分批处理。近年来，随着硬件和架构改进，新模型的上下文长度不断增加（如GPT-4系列支持128K的上下文, Claude 支持200K, Gemini支持1M的超长上下文），这让LLM能在一次对话中参考更长的资料。但上下文窗口过大也会增加计算量和内存占用，LLM注意力也可能会分散。

小结：LLM通过在大规模语料上学到语言模式，具备了通用的语言理解和生成能力，其强大之处在于：不需要专门为每个任务重新训练就能举一反三。这在很大程度上区别于传统机器学习模型需要为每个任务单独训练的做法。理解词表、token、嵌入向量和上下文窗口等概念，有助于我们理解LLM的内部工作机制。

2、训练过程：预训练、后训练和微调

LLM的训练通常分为预训练（Pre-training）、后训练（Post-training） 和 微调（Fine-tuning） 三个阶段。这类似于人类教育中的“打基础—进阶强化—专业定制”过程：

• 预训练：这是LLM训练的第一阶段，也是耗时最长、数据量最大的阶段。预训练采用自监督学习，通常让模型通过阅读海量网络文本来学习“下一词预测”任务。例如给定一句话里前面的词，让模型预测下一个词是什么。模型因此学会了语言的统计特征和基本语法语义。由于不需要人工标注，这一阶段可以使用非常庞大的语料库（数百亿甚至万亿级别的token）。例如，GPT-3在预训练时读取了约5000亿个词。预训练让模型拥有对语言的广泛常识和基础理解，但此时的模型并不知道如何听从人的指令，它只是一个“完成句子”的语言预测器。

• 后训练：又被称为对齐训练（Alignment） 阶段，在预训练完成后进行。这个阶段的目标是让模型的行为更符合人类期望和指令要求。后训练通常包括两个步骤：

1.有监督微调（SFT）：使用人工编写的指令-响应示例对模型进行有监督训练，让模型学会按照指令产生有用回答。例如提供提示“解释为什么天空是蓝色的”，以及对应的高质量答案，让模型拟合这种问答关系。这个过程让模型初步具备遵循指令和对话的能力。

2.奖励模型微调：为了进一步提升答案质量和符合人类偏好，常用人类反馈强化学习（RLHF）或其改进方法。具体做法是由人类或代理对模型输出进行偏好评估，然后训练一个奖励模型，让LLM通过优化预期奖励来产生更符合偏好的输出。以OpenAI ChatGPT为例，他们让人工比较模型的不同回答优劣，用这些偏好数据训练奖励模型，再通过策略优化（PPO） 算法微调LLM，使其倾向于产出得分更高的回答。

经过后训练的LLM在遵循人类指令、避免不当内容等方面表现大幅提升，这一步的成果使ChatGPT这类对话AI变得实用。后训练可以看作让模型从“通才”变成“助理”的关键一步。

• 微调：微调指针对特定任务或领域，对已经经过预训练（以及可能经过对齐训练）的模型进一步训练，使其专业化。这里的微调和上述有监督微调有所区别，更加偏向应用层面。例如，一个医学领域的LLM可以在医学论文数据集上微调，以便更好地回答专业医学问题；又或者企业可以用自有客服对话数据微调模型，使之风格符合企业客服需求。微调所需的数据量和计算量相比预训练小得多，可能只需要几千到几百万条数据即可。通过微调，我们可以在不重头训练的情况下，让通用LLM 快速适配 特定场景，大幅提升在该场景下的性能。值得注意的是，过度微调可能导致模型遗忘一些通识（所谓灾难性遗忘），因此近年来也出现了一些参数高效微调（PEFT） 方法，例如LoRA、Adapter等，通过只训练一小部分参数来微调模型，既达到定制效果，又避免大幅改变原模型权重。

小结：LLM的生命历程可以概括为先广泛学习，再定向打磨。预训练赋予模型通用语言能力；后训练对齐模型行为，使其更安全有用；而微调则让模型精通特定任务。从GPT-3到ChatGPT、Claude等模型无不经历了这些阶段。了解这一点有助于我们明白，一个强大的对话AI背后经历了多少训练步骤。

3、LLM的工作方式：从输入到输出

当我们向ChatGPT这类LLM输入一个问题或提示词时，模型是如何“思考”并给出答案的呢？LLM的推理过程可以分为几个步骤：

LLM生成文本时采用逐步扩展窗口的方式，每次输出一个新的词元（橙色），并将其添加到输入序列（蓝色）中，再交由模型继续生成下一个词元，直到完成答案。

1、文本编码：首先，模型会将我们输入的提示（prompt）进行预处理，包括分词和映射ID。如前文所述，输入文本被拆解成一串token，每个token查词表得到对应的数字ID 。然后，这串ID被转换成向量表示，即通过嵌入矩阵将每个token替换为其对应的嵌入向量。此时，输入的自然语言就变成了模型可以处理的一系列数字向量。

2、模型计算：这些向量被送入LLM的内部架构中进行计算。以Transformer模型为例，通常是堆叠了多层的自注意力机制和前馈网络。注意力机制让模型能根据上下文调整对每个词的权重，从而“关注”相关的信息。模型的每一层都会产生新的向量表示，逐层提取更高层次的特征。一直到最后一层，LLM会产生一个输出向量，表示在给定上下文下预测的下一个token的得分 。可以理解为模型内部给出了它认为下一个词该是词汇表中每个词的可能性大小。

3、生成下一个Token：根据最后的输出向量（经过softmax归一化即成为概率分布），模型选出概率最高的那个token作为下一个生成的词 。这里也可以引入随机性（例如温度参数和Top-p截断）来使输出更加多样化，但原理上都是从概率分布中采样一个token作为结果。如果模型输出的token ID对应的是英语单词“world”，则表示模型认为当前最适合接在上下文后的词是“world”。

4、循环迭代：LLM一次只会生成一个token 。因此，为了得到完整答案，模型会将刚才生成的token添加到已有序列末尾，形成新的输入序列，并重复步骤2和3。这意味着模型会将先前生成的内容也考虑在下一步的输入中。这个过程一直循环，宛如我们一个字一个字拼出句子一样，LLM逐字逐句地把答案“拼写”出来。上面的图示演示了这一过程：初始输入是“A long time ago”，模型一次输出一个单词（如“in”、“a”、“galaxy”…），每输出一个就把它加入上下文，直到最终生成整句话。

5、终止判断：模型会根据内容或特殊终止符判断何时停止生成。常见策略包括遇到预定义的终止token（<|endoftext|>之类）或者达到最大长度时停止，或者模型概率分布进入某种稳定状态（例如连续输出换行符等）。一旦停止条件满足，模型便输出完整的文本序列，作为最终的回答。

在这个生成过程中，上下文窗口（Context Window）起着重要作用。模型每一步考虑的是当前所有已经生成的文本加上原始提示。不过模型能处理的序列长度是有限的，一般模型有固定的最大token数。如果输入+输出超过这个长度，模型无法继续，会被迫终止或丢弃最前面的内容（不同实现略有差异）。因此我们在使用LLM时也要注意提问不要超长或者逐步交互，让对话不超过模型的记忆“窗口”。

通过上述机制，LLM能够将训练中学到的语言知识应用到新问题上，以自回归（autoregressive）方式生成答案。正如微软的一份教程所说：“输出生成是一个迭代过程。模型每次根据先前tokens计算下一个token的概率分布，选出最可能的词元，追加到序列末尾，然后重复这一过程，一次生成一个词元，构建出完整输出” 。这一连贯的生成能力使得LLM可以产生段落甚至长篇的内容。

4、参数规模与精度降低

参数规模是衡量LLM大小和能力的重要指标之一。参数（Parameters）指模型内部的可训练权重数量，相当于模型学习到的“知识连接”数量。一般来说，参数越多，模型表达能力越强，有潜力捕获更复杂的语言模式。近年来大型模型的参数量呈爆炸式增长：早期的Transformer模型BERT有1.1亿参数，GPT-2增加到15亿，GPT-3.5跳跃到惊人的1750亿，而GPT-4已在万亿级参数规模。如此庞大的参数使LLM能够在多样化任务上表现出复杂的推理和生成能力。

参数大小与内存/显存需求

FP32精度（每个参数4字节）

模型规模	参数量	内/显存需求
1B	10亿	4GB
7B	70亿	28GB
13B	130亿	52GB
70B	700亿	280GB

FP16精度（每个参数2字节）

模型规模	参数量	内/显存需求
1B	10亿	2GB
7B	70亿	14GB
13B	130亿	26GB
70B	700亿	140GB

INT8精度（每个参数1字节，量化后）

模型规模	参数量	内/显存需求
1B	10亿	1GB
7B	70亿	7GB
13B	130亿	13GB
70B	700亿	70GB

参数越多，模型体积也越大，训练和推理成本成倍增加。例如，1750亿参数的GPT-3模型权重体积接近350GB（以FP16精度存储），而要部署1万亿参数的模型，显存需求可能达到数TB量级，这远超普通硬件承受范围。这催生了模型压缩和精度降低技术，其中最常用的是量化（Quantization）。

• 量化（Quantization）：在不显著损失模型精度的前提下，用更低比特宽度来存储模型参数。例如，将原本32位浮点（float32）的权重用8位整数（int8）表示（即“Q8”），或甚至4位整数（int4，“Q4”）表示。这可以大幅缩小模型大小和内存占用：8位表示将大小减少到原来的1/4，4位则是1/8。量化后的模型不仅存储需求降低，计算时也可利用低精度算术运算提速。

当然，量化会带来一定的精度损失，因为用较少的比特表示参数值，势必引入舍入误差。一般来说，位宽越低，模型输出质量可能越下降 。实践中，人们常发现Q8和原始16位模型几乎难以分辨差异，而Q4模型在某些复杂任务上会开始出现显著性能下降。

一个典型案例是开源的DeepSeek R1 6710亿参数模型（671B）。原始模型权重大小高达720GB，几乎无法在单机运行，需要例如8块高端GPU（如8×H100，每块80GB）合力才能勉强加载。但通过混合精度动态量化技术，研究者将其压缩到约158GB（平均1.73位精度），最极端甚至可压至131GB（1.58位）。压缩后模型可以在一台配备大量内存的工作站甚至高端Mac上离线运行。这一缩小将近5倍的量化让原本遥不可及的超大模型开始走向民用。

小结: "参数规模"决定了模型的上限能力，但"有效精度"决定了实际可用性。在研发中，人们一方面追求更大的模型以获得更强的能力，另一方面又通过量化、蒸馏等手段让大模型变得更轻便。随着技术进步，我们也看到一些算法创新可以减小模型而不损失性能，或者通过稀疏化、Mixture-of-Experts等架构有效利用超大参数。

5、 Prompt Engineering（提示词工程）

Prompt（提示词） 指我们喂给LLM的输入文本，包括问题、本地上下文、指令等。一段精心设计的prompt能够大大提升LLM输出的质量。提示词工程（Prompt Engineering）就是研究如何优化提示词的内容和形式，以引导模型产生满足预期的结果。

为什么需要提示词工程？因为LLM虽然强大，但输出质量对输入的表述非常敏感。不同措辞、格式甚至顺序，都会影响模型的理解和回答。好的提示词能明确地告诉模型您的需求、上下文和期望格式，减少模型的误解或随意发挥。这对于零基础用户可能比较抽象，我们可以通过一些简单规则来理解提示词优化的方法：

• 明确指示，提供上下文：尽量清晰具体地描述您要模型做什么，不要模棱两可。可以在提示中加入必要的背景信息，让模型知道回答需要依据哪些前提。例如，要模型总结一段文本，可以这样提示：_“请将以下文章内容总结成3点：{文章内容}”_。这样的指令清晰具体，模型更容易遵循。

• 分步骤提问：如果任务复杂，可以拆解成多个子任务。LLM擅长逐步推理，所以您可以让模型先输出思考过程再给结论（这称为Chain-of-Thought提示）。比如：“请分步骤推理这个数学问题，并给出答案：…”。很多情况下，要求模型先“思考”再回答，会得到更准确的结果。

• 提供示例：通过few-shot示例引导模型。如果您希望输出有特定格式，可以在提示中先给出几个范例问答，然后再提出您的问题。这就像树立范本，让模型模仿。举例来说，您要模型提取文本的关键信息，可以先示范：“文本：‘…’ -> 关键信息：…”。提供1-2个这样的样例，模型往往能按照相似格式回答。

• 控制输出风格和长度：在提示里明确要求输出的风格、语气、篇幅等。比如您可以说“用幽默的语气回答下面的问题…”，或者“答案请限制在两段话以内”。LLM会尽量遵守这些要求。这可以避免得到过长或风格不符的答案。

• 特殊标记和结构：利用一些约定俗成的标记提升提示效果。例如OpenAI建议用"""或<…>包裹上下文，以区分指令和内容；用 ### 分隔系统指令和用户输入等。这些格式虽然模型未必100%遵守，但在ChatGPT等实际应用中被证明有效。良好的排版和结构能降低模型误解概率。

一个复杂prompt实例:

小结：提示词工程的目标是让模型“明白”我们真正的意图。早期使用者可能都有体会：稍作修改提示，结果大不同。掌握一些提示技巧，可以把LLM的潜能发挥得更好。例如OpenAI官方指南中就强调：“清晰、具体、提供上下文，示例先行”是获得高质量回答的关键。实践中，与其随便扔给模型一句话，不如花点心思描述清楚需求。这样模型更“懂你”，回答自然更令你满意。

6、 RAG（Retrieval-Augmented Generation）与Agent（智能体）

即使是训练良好的LLM，也存在一个局限：知识截止和上下文封闭。模型的知识只来自训练数据，而训练数据往往有时效性或不包含特定领域的专业资料。此外，LLM生成回答时不引用外部资料，纯凭“记忆”和语言模式，可能导致信息不准确。为了解决这些问题，业界提出了 “检索增强生成” (RAG) 和 智能体 (Agent) 等思路，为LLM配备“外挂大脑”和“工具使用”能力。

检索增强生成（RAG）

RAG指在让LLM生成回答之前，先根据用户的问题从外部知识库中检索相关信息，提供给模型作为额外上下文，提升答案的准确性。简而言之，就是LLM不会孤军奋战，它有一个资料库助手。典型的RAG流程包括：

1、检索：接收到用户Query后，系统在预先构建的知识库（可以是公司文档、维基百科、网页索引等）中使用搜索算法找到相关资料段落。例如，用户问“今天纽约股市行情如何？”，系统可实时爬取财经新闻或查询金融数据库。

2、增强提示：将检索到的文本片段附加在用户问题上，一并提供给LLM。这就相当于在prompt中加入了“知识补充”。模型现在有了额外依据，能够“看到”最新的或特定领域的信息。

3、生成：LLM基于增强后的上下文生成回答。因为有检索内容的支持，模型回答时就能引用这些权威信息，从而更加准确、具体，并减少不确定时编造内容的倾向。

通过RAG，LLM可以突破自身训练数据的时空局限，随时参考权威知识库来完善回答。例如，微软的Bing Chat就是结合了网络搜索（检索阶段）和GPT生成（生成阶段），能够引用实时网页内容回答问题。AWS对此的描述是：“RAG让LLM在生成响应前参考训练语料以外的权威知识库……无需重新训练模型，就能使输出保持最新、准确和有根据” 。实践证明，RAG有效降低了幻觉现象，并使LLM具备了查询实时信息和利用专业数据的能力。

智能体（Agent）

如果说RAG让LLM有了资料参考，那么Agent则让LLM具备了自主执行动作和调用工具的能力。LLM驱动的“智能体”指这样一种系统：LLM充当大脑，负责决策和推理，但当需要与外界交互（如查信息、计算、调用API）时，它可以自主选择并使用预先定义的工具来完成子任务，然后将结果纳入后续推理。这听起来抽象，可以用一个例子说明：

假设有一个AI助理Agent，你问它“帮我查一下今天巴黎的天气，然后用中文问候我”。这个任务需要两个步骤：查天气（需要上网）和翻译/问候（语言生成）。这个Agent会规划这样一个流程：“首先调用天气API工具获取巴黎天气 -> 然后根据天气信息生成中文问候语”。在执行时，LLM先输出一个指令如工具: WeatherTool[“Paris”]，系统识别这是让天气工具执行，拿到结果例如“晴，25°C”。LLM接着把结果纳入上下文，再生成最后的回答：“巴黎今天天气晴朗，气温25°C。祝你有美好的一天！”。

可见，Agent使LLM不仅能回答问题，还能采取行动。这些动作可以是调用任何外部函数：如搜索网络、查数据库、运行计算、执行代码等等。LLM会以特殊格式“请求”某个工具，并根据工具返回结果调整后续应答。Agent背后的关键，是通过提示词和架构设计，让LLM的输出包含行动计划，而系统能解析并执行这些计划，从而形成一个循环反馈：LLM思考->采取行动->获取结果->继续思考，直到完成目标。

例如，LangChain提供的Agent可以使用Google搜索工具。所以对于复杂问题，Agent可能多轮调用搜索引擎查资料，再综合整理答案。这比单纯的RAG更灵活，因为Agent可以动态决策下一步做什么，不局限于一次检索。本质上，Agent就是在LLM外面套了一层决策执行循环。使用Agent可以赋予LLM访问工具的能力。有了工具，LLM就能搜索网页、执行数学运算、运行代码等等，LLM的应用领域和范围就有了无限可能。

RAG和Agent经常结合使用：LLM可以先通过Agent调用检索工具获取信息，然后再生成最后答案。这使得LLM真正成为一个插件化的智能系统而非孤立模型。

小结：RAG让LLM“看资料”，Agent让LLM“用工具”。前者着重增强知识，后者强调决策执行。二者解决了LLM闭门造车的弊端，使之能连通外界。通过RAG，LLM的回答有据可依，减少了胡编乱造；通过Agent，LLM变成一个可以自主与环境交互的智能体，可以完成复杂任务而不仅仅是对话。这两项能力的引入，大大拓展了LLM的实用范围，也是当前很多AI应用（如自动化助手、复杂问答系统）的核心思路。

7、 Embedding 与 Re-ranking：向量表示和检索优化

在上一节我们提到，通过检索可以为LLM提供外部知识。在实现检索时，有两个重要技术：Embedding（文本嵌入向量）和 Re-ranking（结果重排序）。它们是现代信息检索与LLM结合的关键，使得检索更高效、结果更相关。

Embedding 向量：这是将文本转换为机器可计算的向量表示的技术。LLM中的embedding一般指词嵌入，但在文本检索场景，我们通常使用句子/文档嵌入。具体而言，可以利用一个预训练的模型（如Bge-m3,Sentence-BERT、text-embedding-ada-002等）将一句话或一段文本编码成一个高维向量。这个向量带有语义信息——含义相似的文本，其向量也会在向量空间里相近。通过embedding，我们可以把一个知识库里的所有文档都映射成向量并存储在向量数据库（Vector DB）中。当用户有查询时，也把查询转成向量，然后在向量数据库中找出余弦相似度最高的几个文档向量，作为初步检索结果。相比传统关键词搜索，这种向量检索能超越字面匹配，找到语义相关的内容（哪怕措辞不同）。例如，查询“心脏病的症状”可能匹配到含“冠心病表现”的文章，因为embedding抓住了语义近似。向量检索非常适合用在RAG场景中，为LLM提供高相关的参考资料。

Re-ranking 重排序：初步检索的结果可能有几十条文档片段，但我们通常只想将最有价值的几条提供给LLM作为上下文（因为上下文窗口有限）。这就需要对初始结果做进一步排序优化，挑选出其中最相关、信息密度最高的部分。这一步通常由一个更强的语言模型或专门的交叉编码模型完成，被称作重排序。流程是：将查询和每个候选文档段落一起输入一个模型，评估该段落与查询的相关度分数，然后按分数重新排序。由于可以结合查询和文档内容，这种方法比向量相似度更准确。许多实现中，会用一个小型的LLM或BERT来做这一评估工作——它相当于读懂片段是否回答了问题，然后给出打分。NVIDIA的技术博客描述道：“重排序是一种用LLM的高级语言理解能力来提升搜索结果相关度的技术。它会分析查询和各候选文档之间的语义匹配程度，重新排列文档顺序，把最相关的优先呈现” 。

The diagram shows the ReRank step located between the vector DB and LLM and improves the chunk quality and rank.

上图：重排序在检索流程中的作用示意。最初基本检索得到许多“初始段落”（中间左侧方框所示）。然后ReRank模块对这些段落基于查询相关性进行压缩和筛选，只挑选出更少但更相关的“改进后段落”（右侧方框）。之后这些段落连同用户查询一起作为增强上下文输入LLM 。

通过Embedding和Re-ranking的配合，我们可以构建一个两阶段检索：向量召回 + LLM重排。第一阶段向量召回保证召回率（把可能相关的都找回来），第二阶段LLM重排保证精确率（挑出真正最相关的）。这就好比先用大网捕鱼，再用精细的筛子过滤。实践表明，两阶段检索能显著提高提供给LLM的文档质量，让LLM最终回答更加正确。因为LLM在回答时往往只引用前几条给定文档，如果这些文档相关度不高，模型回答也难以准确。

举个简单例子：假设用户问“一战的起因是什么？”。向量检索可能返回了10段历史文本，其中有的讲一战爆发时间，有的讲一战影响，还有的包含起因。但我们只希望给模型起因的段落。重排序模型会把解释起因的那几段排在最前，其它次要段落排后甚至滤掉。LLM最后拿到的就是关于起因的精华片段，因此能更准确地回答问题。

可以说，Embedding提供广度，Re-ranking提供深度。Embedding让检索系统拥有语义搜索的眼睛，不放过潜在有用信息；Re-ranking让系统具备火眼金睛，从中辨别出真正重要的内容。二者结合，使得LLM在RAG场景下如虎添翼——既能高效地从海量数据中发现相关知识，又能确保引用的就是所需信息。这对于构建企业级问答、智能搜索引擎等应用非常关键。在NVIDIA的示例中，引入重排序的增强型RAG管道，明显改善了LLM最终回答的质量，因为模型使用了“质量更高且与查询高度相关”的上下文。

小结：Embedding和Re-ranking是一对好搭档：前者把文本变成数学空间里的点，后者用模型“读”这些点对应的文本哪个和问题更搭配。善用这两项技术，可以显著提高LLM在信息检索类任务中的表现。

8、微调（Fine-tuning）：定制特定任务的LLM

在第2节我们谈到微调，这里进一步说明如何对LLM进行微调以及其应用。简单来说，微调就是在一个预训练好的模型基础上，用特定领域或任务的数据进一步训练，使模型的输出更加贴合该领域/任务的需求。

微调的典型流程如下：

1、准备数据：收集与目标任务相关的训练样本。格式通常是输入->期望输出的配对。例如，要微调一个对话机器人辅助法律咨询，可以准备一批法律问答的对话记录；要微调模型写诗歌，就准备大量诗歌范例作为目标输出。数据量不需要像预训练那样海量，但应具有代表性和高质量。数据样本最好能覆盖任务的主要情形，让模型学到对应模式。

2、设置训练：将预训练模型加载出来，将新数据按一定比例混合作为训练集（有时也会保留一部分原始通用数据以防模型遗忘）。然后使用监督学习（通常仍是让模型拟合给定输入->输出）来调节模型参数。通常学习率较小，训练轮数也少于预训练阶段，以免过度偏离原有能力。

3、训练与验证：在训练集上调整模型参数，使其在这些样本上表现良好。同时用一部分验证集样本观察模型性能是否提升以及是否出现过拟合。如果验证集效果不好，可能需要调整超参数或数据量。微调过程相比预训练短得多——可能几小时到几天即可完成，具体视数据规模和模型大小而定。

4、测试效果：微调完成后，在独立的测试集或实际应用中验证模型。理想情况下，模型在目标任务上的指标应该显著好于微调前。例如，一个GPT-3模型普通情况下做医疗问答可能答非所问，经过医疗Q&A数据微调后，准确率提升，并且用词更加专业。

微调后的模型往往称为该任务的一个专家版本。比如“GPT-3法律版”、“GPT-3医疗版”等。它保留了原始LLM的通用语言理解力，又在特定领域表现突出。OpenAI的研究指出，针对特定格式或风格的微调能提升结果的一致性和遵循度。例如，给GPT-3微调写广告文案，它就会更符合广告语气和结构，而不跑题。

需要注意的是，微调也有一些挑战：首先是数据隐私和安全，使用企业私有数据微调要确保不泄露敏感信息；其次训练资源仍不容忽视，大模型微调也需要数张GPU跑上若干小时；再者避免灾难性遗忘，即模型只记住新数据而丢掉原本的常识。这方面PEFT技术（如只训练部分权重，或添加Adapter层）可以有所帮助。

一个有意思的方向是指令微调（Instruction Tuning）——这其实就是ChatGPT等模型后训练SFT的一部分，被一些资料称为微调。它使模型更好地遵循自然语言指令。除了这类高层次行为微调，很多企业和个人都对LLM进行了垂直领域的微调。例如医疗公司微调出能看医学影像报描述的模型，编程社区微调出更擅长代码解释的模型（如OpenAI的Codex就是在编程数据上微调GPT，以及deepseek-coder），还有人将LLM微调成对某部小说风格说话的聊天机器人等等。

微调的优势在于：以较小代价获得专用模型。微调利用了预训练模型广博的基础知识，通过少量数据调整参数，就能让模型在特定任务上更精确高效。对于追求高精度的实际应用，直接使用通用模型可能不够贴合需求，而微调提供了一个可行途径来定制AI。

因此，如果您有一个特定任务，希望LLM的输出风格/内容做得更好，不妨考虑微调。当然，并不是所有场景都需要微调：有时精心设计提示词也能达成目的（Prompt工程），而微调要有足够数据和算力。但当高质量数据充足时，微调后的LLM无疑会在对应任务上胜出。

9、 LLM的应用领域

自从大型语言模型（尤其是ChatGPT）走入公众视野以来，其应用几乎遍及各个行业和场景。下面我们按类别介绍LLM的主要应用领域，展示它如何帮助我们编程、创作、多媒体处理、教育、组织信息和自动化工作等。

• 编程助手：LLM在代码生成和理解上展现出强大能力。例如GitHub Copilot 就是基于OpenAI的Codex模型，为开发者实时补全代码、提供函数实现建议。又如Cursor、Cline这类智能编程助手，能融入IDE与开发流程，根据自然语言描述生成代码，或者阅读项目代码回答问题。LLM可用来加速写代码（自动生成样板、常用算法），代码解释和文档（帮助理解遗留代码或生成注释文档），单元测试生成（根据函数逻辑编写测试用例），甚至调试（根据报错信息猜测bug原因）。据报道，大型语言模型已经可以胜任很多初级程序员的工作。当然，目前模型偶尔会犯逻辑错误或语法小错，但随着模型能力的进步，它们正成为程序员得力的助手，显著提升编程效率。

• 文字内容创作：LLM擅长模仿各种文体风格来生成文本，被广泛用于文章撰写、文案创作、报告生成等。创作者可以让模型起草博客文章、写故事小说、撰写广告营销文案等。模型还能根据给定主题生成诗歌、歌词等富有创意的文本。对于作家和媒体人，LLM可以扮演头脑风暴的角色：提供写作思路、段落续写，或者将要点扩展成完整段落。许多内容创作平台已经集成了LLM助手，帮助用户快速产出初稿，用户再润色修改即可。据统计，利用LLM生成营销内容可以节省大量时间，同时提供不同风格以供选择。需要注意的是，模型生成内容可能需要人工审核以确保事实准确和风格恰当，但无疑，它是高效的文字生产力工具。

• 图像与视频生成：虽然LLM主要处理文本，但其兴起也带动了跨模态生成的发展。文本生成图像方面，有如Stable Diffusion、DALL·E等模型，根据文字描述输出相应的图画。ChatGPT等LLM甚至可以帮助用户构思提示词来喂给图像模型，从而间接参与图像创作。另外，一些多模态LLM（如GPT-4V）本身能理解图像内容，并生成文字说明。文本生成视频仍在早期，如Runway的Gen-2模型能根据简单文本创建短视频。目前这些图像/视频模型多不属于纯LLM范畴，但LLM可以作为控制中枢：例如描述要生成的场景，由图像模型绘制，再由LLM添加字幕解说。还有应用把LLM与设计软件结合，用户用自然语言让AI完成制图、剪辑等操作。可以预见，未来文字、图像、音频、视频的生成会进一步融合，LLM将作为通用的大脑，协调各专门模型一起工作，为用户创造丰富的多媒体内容。

• 教育与学习：LLM在教育领域的潜力令人兴奋。它可以充当个性化家教，24小时回答学生各种问题，无论是数学难题还是历史知识点。如果学生不理解某概念，可以要求LLM换种说法解释，或举更多例子，直到弄懂为止。相比传统教育资源，LLM提供了高度互动式的学习体验。比如Khan Academy开发的Khanmigo，就是基于GPT-4的学习助手，能针对学生的解题步骤给出提示而非直接答案，培养学生思考能力。LLM还能自动生成练习题和答案，用于自测或老师出卷。此外，在职业培训、语言学习中，LLM可以模拟对话场景，让学习者练习口语和应答。像Duolingo这样的应用已经用LLM生成对话练习和解释。在教育问答社区，LLM也被用来整理和回答问题，提供详尽讲解。需要强调的是，教育场景必须监控LLM输出的准确性，但总体而言，大型语言模型有望实现因材施教、随时问答的人工智能教师，降低优质教育的门槛。

• 对话机器人：这是LLM目前最广为人知的应用，即ChatGPT一类的聊天助理。无论是企业的客服、应用内的语音助手，还是个人手机里的智能语音（Siri等），LLM可以让它们变得更聪明健谈。客服机器人利用LLM能够理解用户各种表述的提问，并给予贴切的回复，处理常见问题、引导用户步骤等。相较于以往基于规则的客服，LLM驱动的客服更具互动性和上下文理解，用户体验提升明显。在社交娱乐方面，一些角色扮演Chatbot（如Replika等）基于LLM，可以模拟出不同性格的“AI朋友”陪人聊天解闷。还有心理咨询类机器人，让AI倾听和安慰用户。对于企业而言，训练自有数据的LLM对话模型，可以作为内部知识问答系统，方便员工查询。可以预见，随着LLM的改进，未来人机对话会越来越自然，几乎难以区分对面是AI还是真人。这既带来机会也有伦理挑战，但毋庸置疑，对话机器人会是LLM最深入日常的应用形式之一。

• 信息整理与数据组织：面对海量的文档、报告、笔记，人力逐一阅读整理代价高昂。LLM擅长阅读理解和摘要，因而在信息整理上大显身手。常见的应用包括：自动文摘（给定长文档，生成简明摘要）、报告汇总（汇聚多份报告的要点写成概览）、会议纪要（根据会议的对话记录提炼出决议和行动项）等。LLM还能进行文本分类和归纳，比如浏览一堆用户反馈，将其按主题分类并总结主要意见。对于结构化数据，也可以让LLM生成描述或分析。例如输入一张表格，让模型用自然语言描述其中的趋势。许多知识管理软件开始接入LLM，实现智能搜索：用户用问句查询，LLM阅读公司知识库相关文档后直接给出答案而非仅列出文件列表。这极大提高了信息获取效率。此外，LLM可以从非结构化文本中抽取结构化信息，如从合同文本里抓取合同金额、甲乙方等字段，用于数据库记录。总之，在需要读、析、写的大量白领工作中，LLM都能提供帮助，把繁琐的信息处理交给AI，让人专注于决策和创造。

• 工作流自动化：结合前面提到的Agent思想，LLM可以成为各种业务流程的自动化引擎。通过编排，LLM驱动的Agent可以访问企业的软件系统执行操作，从而部分替代人工完成流程。举例来说，客服接到退款请求，以前需要人工核对订单、填写退款单。现在完全可以由LLM-Agent：读取用户消息->调用订单数据库验证->调用退款API处理->回复用户完成。类似地，在IT运维中，Agent能够根据故障描述自动执行诊断脚本、尝试重启服务等操作，再将结果反馈。这样的LangChain类框架使得将LLM融入现有系统变得容易，人们搭建出各种Automation Agent来自动收发邮件、安排日程、填写表格等等。想象一下，您给公司AI助手发一封邮件“帮我把上月销售数据汇总成Excel图表发给张经理”，AI助手就真的完成了这些步骤——背后就是LLM解析指令并驱动相应工具工作。可以预见，未来办公室中很多重复性流程都会由这样的AI来执行，人类只需用自然语言下达指令。LLM将成为通用的流程胶水，把各软件API连接起来，实现自动化办公的新范式。

以上只是部分领域，LLM应用的范围还在不断扩大。从医疗诊断（辅助医生分析病情）、法律顾问（查找法律条例并给出解读）、游戏设计（生成剧情对白和角色对话），到科学研究（整理论文、生成研究报告初稿）等等，都能看到LLM的踪影。正如NVIDIA博客中所说：“大型语言模型正在加速自然语言处理应用的发展——从翻译、聊天机器人到创意写作、代码生成，各行各业都在拥抱这项技术” 。未来随着模型能力增强和成本降低，我们可以期待LLM像电力一样成为一种通用人工智能服务，为各行各业提供智力支持和自动化能力。

10、 LLM与搜索引擎的区别

很多人第一次接触ChatGPT时，常会将它与搜索引擎进行比较：它们都能回答问题，但方式和原理截然不同。理解LLM与传统搜索引擎的区别，有助于正确使用二者。

工作原理：搜索引擎（如Google、百度）是建立在爬虫+索引+排名技术上的信息检索系统。当用户输入查询时，搜索引擎会在其预先抓取并索引的海量网页中匹配关键词，找到相关网页链接列表返回给用户。它本身并不生成新句子，而是提供现有信息的入口。而LLM则不同，LLM是一个生成模型：它根据训练学到的语言模式拼出答案。LLM并没有实时访问互联网（除非结合工具），它回答问题更多是凭记忆和推理。简单来说，搜索引擎在数据库中 “查”，LLM凭经验 “写” 。

输出形式：搜索引擎返回的是网页列表，需要用户自行点击阅读，而LLM直接给出自然语言的连贯答复。举例，你搜索“什么是黑洞？”谷歌会给你维基百科等链接摘要，让你点击看详细信息；而问ChatGPT，它会直接用几段话解释黑洞的定义、特性等。搜索引擎更像图书管理员告诉你去哪找答案，LLM更像老师直接告诉你答案。

数据来源：搜索引擎的数据是实时抓取的互联网内容，不断更新，所以能提供最新新闻、实时天气等。LLM的数据是训练语料，比如ChatGPT的知识截至2021年，因此对新近发生的事一问三不知（除非使用RAG技术）。除非专门更新模型，否则LLM的知识有时效限制 。另外，搜索结果往往包含来源出处（你可以查看网页作者、发布时间等），而LLM的回答是模型自生成的，一般不附带来源（除非额外设计引用机制）。这意味着追溯答案出处在LLM场景下更困难，用户需要额外验证。

交互方式：搜索是典型的一次性问答——用户提交查询，搜索引擎返回静态结果，交互到此为止。LLM则支持多轮对话，可以根据用户的追问或上下文进行连续交流。它能够记忆对话历史（在上下文窗口内）并做出上下文相关的回应，使人机交互更接近人与人对话。比如你问ChatGPT一个问题，觉得不够详细，可以追问“能展开讲讲吗？”它就能接着之前的话题继续讲。而搜索引擎没有记忆，你每次都得重新输入一个新查询。

能力范围：搜索引擎擅长信息精确检索，找到具体事实或网址非常高效。但它不会替你整理信息、综合归纳。LLM在语言生成和综合上更强，能够从知识中举一反三，甚至完成创意性的任务，比如写文章、编故事，这是搜索引擎做不到的。另一方面，LLM的事实准确性不如直接查找来的可靠。搜索引擎返回的内容来源于人类撰写的网页，一般真实度高（当然也有假消息网站，但用户可自行鉴别多个来源）。LLM回答如果涉及训练中不存在或模棱两可的信息，可能出现幻觉，凭空编造。因此在需要严格准确的查询上，搜索引擎更可信，而LLM更适合需要措辞优美、归纳总结的场景。

总结：搜索引擎像一个资料库查询系统，帮助你找到信息所在；LLM像一个博闻强记的AI，直接告诉你答案。搜索引擎依赖最新抓取的数据，所以知识新鲜，但需要用户自行阅读处理；LLM靠训练获得知识，交互更自然，但知识可能陈旧或出错。未来，两者有融合趋势，例如搜索引擎加入LLM摘要功能，LLM通过RAG接入网络检索。但在现阶段，建议用户结合使用：要最新、精准的信息，用搜索；要方便、省事的解释和写作，用LLM，并对关键事实做核验。

11、 LLM的限制：幻觉与错误信息

尽管大型语言模型表现出色，但它们并非完美无缺，存在一些固有的局限和问题。其中最引人关注的是 “幻觉”（Hallucination） 现象，即模型生成不真实或不正确的信息，仿佛在“胡说八道”。此外，LLM可能犯的错误还包括逻辑推理不当、数学计算出错、存在偏见等。理解这些限制有助于我们更谨慎地使用LLM。

幻觉（Hallucination）：在人工智能语境中，幻觉指模型输出了与事实不符的内容，就好像人产生幻觉看到不存在的东西一样。比如，用户问：“哥伦布是哪一年到达美洲的？” 如果LLM回答了一个错误年份，就是一种幻觉。如果模型甚至编造出不存在的参考文献、虚构新闻情节，更是明显的幻觉案例。IBM对AI幻觉的定义是：“当LLM或其他生成式AI感知到实际上不存在的模式或对象，输出荒谬或不准确内容时，就是出现了幻觉” 。造成幻觉的原因可能有：

• 模型训练数据中缺乏某方面知识，导致它只能凭语言相关性猜测一个答案。这时候就可能瞎编一个听起来合理其实错误的回答。

• 模型在复杂推理时出现错误的中间推断，进而得出错误结论。这有点像考试时一步算错步步错。

• 有时模型对提示词理解偏了方向，给出了不相干的答案。

幻觉现象在LLM输出长文本时尤为突出，因为模型需要连续输出很多内容，如果中途缺少依据，就容易发挥“想象”。举个例子：有人让GPT-3.5/4解释一下某个冷门理论，它可能一本正经地编造出貌似合理其实完全不存在的解释，让不知情的人信以为真。这类问题是LLM目前最大的可靠性挑战：模型对自己的输出没有“理解”，因此不会意识到自己在造假，依然会非常自信流畅地说出来。

幻觉带来的后果可能很严重。例如，模型给出了错误的医疗建议，或者在法律问答中编造了不存在的法条。这些都会误导用户。2023年一些实例如：谷歌Bard最初演示时回答天文问题出现错误事实，导致公司市值震荡；微软早期的必应聊天GPT模式被曝出产生诡异言论。因此，如何减轻幻觉是LLM研究的重要方向，包括引入检索（RAG）以提供真实资料、调整训练方式、让模型给出回答时附上依据等等。

错误信息生成：除了幻觉，LLM还可能输出其他类型的错误信息：

• 逻辑错误：如在数学推算、编程输出中步骤不正确。模型容易犯“看似对了其实错”的逻辑纰漏，因为它不是真正理解，只是基于语料的模式。

• 偏见与不当内容：模型从训练数据中学到人类的偏见（种族、性别等）和不良言论。如果没有经过仔细的后训练约束，可能无意中生成带偏见或冒犯性的回答。这需要用对齐和过滤技术控制。

• 上下文错误：有时模型可能遗漏了用户提示中的某些条件，或者在长对话中“忘记”前面说过的话（超出上下文窗口导致）。这会造成前后矛盾或驴唇不对马嘴的情况。

LLM不会自己验证真伪：一个重要的认知是，当前的LLM缺乏事实核查能力。它不会像人一样在脑内确认“这个说法对吗？”才说出口。除非特别微调，否则模型倾向于**“有什么说什么”**，不管正确与否。正如一位专家比喻的：“LLM就像一个过于自信的新员工，会对任何问题都给出肯定回答，哪怕他其实不了解情况” 。因此，我们在使用LLM时，尤其是获取知识性答案时，要保有怀疑精神，必要时通过权威来源验证模型给出的信息。

解决这些限制，需要技术和使用两方面努力：

• 技术上，加入检索校验、让模型自评（如让模型生成答案后再检查有没有不一致）等方法，可以减少错误。OpenAI也在研究让模型知道“不知道就说不知道”，而不是乱编。

• 使用上，人类监督和编辑仍不可少。在关键应用（医疗、财经等），AI的回答应该经由专家复核。目前LLM适合作为助理而非最终决策者。正如有人调侃的：ChatGPT很聪明，但“不会拒绝你，它总要给点什么”，所以作为用户要明白，LLM并非完美权威。

小结：LLM的限制提醒我们：不要神化AI。尽管它们语言能力惊人，但在事实正确性和理性推理上仍有不足。将LLM用于辅助人类决策时，一定要把好审核关。随着技术迭代，幻觉现象有望缓解，但完全杜绝仍需时日。

12、安全问题：隐私泄露与滥用风险

LLM的大规模应用也引发了安全与伦理方面的关注。主要问题包括：模型可能泄露敏感信息、用户使用模型过程中数据隐私难以保障，以及模型功能被恶意滥用等。这里我们概括几个值得注意的安全议题：

• 隐私数据泄露：LLM在训练时可能接触大量互联网公开数据，其中不乏个人隐私信息。如果没有处理好，模型可能在回答中吐露训练时见过的个人敏感信息。研究发现，大型模型有微弱概率直接记忆并输出训练语料中的电话号码、地址等详细内容，这是AI时代的新隐私泄露渠道。此外，用户与LLM交互时输入的敏感信息（公司机密、个人隐私）如果被云端模型存储，也存在泄露风险。正如有分析指出的：“使用LLM可能意味着你问的问题和提供的数据会被存储下来，在数据泄露或执法取证时被获取” 。一些公司已禁止员工把机密输入ChatGPT，原因就在于担心OpenAI服务器存有这些对话记录。一旦这些记录遭黑客攻击或内部滥用，机密将外泄。因此，对企业用户来说，更倾向于本地部署LLM或签订数据不留存的协议，以保护敏感信息。

• 模型滥用：LLM强大的生成能力也可能被别有用心者利用来从事违法或不道德行为。例如：

• 生成钓鱼诈骗信息：攻击者可用LLM批量撰写看似真人发出的欺诈邮件、诈骗短信，其语言流畅度和迷惑性比以往模板更高。

• 制造虚假新闻和谣言：LLM可以快速生成大量措辞正式、逻辑清晰但内容失实的文章，用于在社交媒体上散播错误信息，干扰公众判断。这种AI生成的假消息更难分辨，而且可以定制针对特定受众，加剧误导。

• 生成不良或违法内容：有人可能用未受限的模型来产出仇恨言论、极端主义宣传材料，或者生成指导犯罪的步骤（如如何制作危险物品）。模型本身无道德观，如果去除安全过滤，它会老老实实提供这类信息。这显然带来社会危害。

针对滥用，AI社区和各国政府开始制定规则。OpenAI等在模型上加了内容过滤，遇到敏感请求会拒答，以防直接输出有害内容。但总有人试图绕过这些限制。因此还需要法律监管，明确使用AI从事诈骗、造谣等行为的法律责任。此外，加强公众媒体素养，让大家意识到AI生成内容充斥，也能降低受骗风险。

• 偏见歧视：前面提到LLM可能继承训练数据中的偏见。如果被利用，这也会放大有害影响。例如恶意用户刻意引导模型输出种族主义言论，再传播开来。这种风险需要开发者在模型训练时就加入去偏见措施，并持续监督模型输出。大型模型公司都在投入AI伦理研究，试图降低模型歧视性输出，避免伤害特定群体。

• 法律合规：LLM应用涉及版权、数据保护等法律问题。例如，模型训练用了大量网络数据，但未逐一征得版权人同意，这是否构成侵权？LLM复述训练内容时是否算作品引用？各国法律正在研讨。欧盟AI法案也考虑将高能力模型列为高风险，需要满足严格的安全标准才能部署。对于企业来说，需要留意相关法规，合法使用 LLM技术。

小结：LLM在带来机遇的同时，也引入了新的安全隐患。从隐私泄露的角度看，用户在与AI交互时应谨慎，不要透露不该透露的信息；机构在使用第三方LLM服务时也要搞清数据如何存储处理。从滥用角度看，需要技术+管理双管齐下：模型提供方加强内容审核和防滥用机制，使用方遵守伦理和法律，不将AI用于不当途径。AI的发展应以 “可靠”和“负责” 为前提，才能更好地被社会接纳。

好了，LLM基本概念介绍结束了，希望各位有所收获。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】