AAAI2025 清华大学-通过大语言模型解决RL奖赏值分配难题！_latent reward: llm-empowered credit assignment in -CSDN博客

本文链接：https://blog.csdn.net/Python_cocola/article/details/144568718

论文题目： Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning

论文链接： https://arxiv.org/pdf/2412.11120 (AAAI2025)

摘要

强化学习（Reinforcement Learning, RL）在实际应用中经常遇到延迟和稀疏的反馈，甚至仅存在情节性奖励。尽管先前的方法在奖励重分配以解决信用分配问题上取得了一些进展，但仍面临诸多挑战，包括因冗余导致的训练困难以及由于忽视任务表现评估的多维性质而引发的归因模糊等问题。大语言模型（Large Language Model, LLM）拥有丰富的决策知识，并为奖励重分配提供了一种可行的工具。然而，在此情境下使用LLM并非易事，因为语言知识与符号形式需求之间存在不匹配问题，同时推理过程中还伴有固有的随机性和幻觉现象。为了解决这些问题，我们提出了一个名为LaRe的创新性框架，这是一种基于符号的、由LLM驱动的决策框架，旨在改进信用分配。LaRe的核心概念是“潜在奖励”（Latent Reward），它作为一种多维度的性能评估工具，能够从多个视角更具解释性地衡量目标达成情况，并促进更有效的奖励重分配。我们验证了LLM生成的语义代码可以将语言知识与符号潜在奖励联系起来，因为这些代码可用于符号对象的执行。同时，我们设计了潜在奖励的自验证机制，以提高LLM推理的稳定性和可靠性。从理论上讲，消除潜在奖励中与奖励无关的冗余，有助于通过更准确的奖励估计提升RL性能。大量实验结果表明，LaRe：（i）在时间信用分配方面优于现有最先进方法；（ii）在多智能体的贡献分配中表现出色；（iii）在某些任务中，其策略表现优于基于真实奖励训练的策略。

引言

情节性强化学习（Episodic Reinforcement Learning）致力于解决仅能获得情节性奖励的问题，这种情况在强化学习的实际应用中十分常见，例如自动驾驶（Kiran 等，2021）和医疗保健（Zeng 等，2022）。在情节性强化学习中，信用分配（Credit Assignment，Sutton 等，2011；Zhang、Veeriah 和 Whiteson，2020）是一个关键问题，涉及评估单步决策的贡献（Ren 等，2021）。由于反馈延迟和稀疏，信用分配变得尤为具有挑战性。回报分解（Return Decomposition，Arjona-Medina 等，2019）作为一种使用状态-动作对来重新分配情节性奖励的方法，为解决这一问题提供了一个有前景的方向。后续的研究通常集中于模型架构（Liu 等，2019；Widrich 等，2021）或人工设计的回归原则（Ren 等，2021；Lin 等，2024），但往往忽视了由冗余信息导致的训练难度。Zhang等（2024b）尝试通过因果方法过滤掉与奖励无关的特征，以减少冗余问题，但仍然面临语义解释缺乏的困境。

在研究人类问题解决的过程中，一个显著的观察是，对贡献的评估通常涵盖多种定性和定量因素。例如，足球运动员的表现不仅通过进球数来衡量，还包括伤病预防和团队配合等因素。同样，强化学习中设计的奖励通常也是多种因素的组合（Todorov、Erez 和 Tassa，2012；Qu 等，2023）。然而，以往的方法（Arjona-Medina 等，2019；Ren 等，2021）主要专注于最终回报值，而未深入挖掘性能评估的多维性质，这导致语义解释能力较差以及信用分配的模糊性问题。近年来，预训练大语言模型（LLM）的能力已被证实（Achiam 等，2023），表明将其先验知识集成到强化学习中以改进信用分配是一个具有前景的解决方案。然而，LLM的语言知识与具体任务所需的符号表示之间的不匹配构成了重大挑战，同时，LLM推理过程中固有的随机性和幻觉现象（Peng 等，2023；Carta 等，2023）进一步削弱了其有效性。

为了满足对多维性能评估的迫切需求，我们提出了一个用于信用分配的关键概念——潜在奖励（Latent Reward）。该方法通过不同维度捕捉任务性能的多个方面，同时消除与奖励无关的冗余信息。在此基础上，我们设计了一个名为LaRe的框架，其核心功能包括：（i）通过融合来自LLM的任务相关先验知识，生成具有语义可解释性的潜在奖励；（ii）利用这些潜在奖励增强奖励分解。LaRe的一个关键洞见是，语义生成的代码可以连接LLM中的语言知识与符号形式目标，因为这些代码可以针对符号对象进行执行。基于这一点，LaRe提出了一个通用范式，用于将LLM的先验知识集成到符号任务中。具体而言，通过标准化的提示对预训练的LLM进行指导，以编码函数的形式生成代码，将环境信息编码为具有语义可解释性的潜在奖励，从而避免了对任务特定训练的需求。为缓解LLM推理中的随机性和幻觉现象，LaRe设计了一种自验证机制，用于稳定且可靠地推导潜在奖励。

我们的主要贡献总结如下：

我们提出了具有语义可解释性的潜在奖励（Latent Reward）概念，通过将其引入情节性奖励的概率模型，揭示了逐步贡献的多维特性，同时对齐了人类偏好并减少了冗余。
我们设计了一个基于潜在奖励的框架 LaRe，利用LLM的任务相关先验知识实现更准确且可解释的信用分配，为将LLM集成到基于符号的决策中提供了新途径。
我们从理论和实验证明了方法的优越性，并验证了LLM作为潜在奖励推导的通用信息编码器的有效性。

预备知识

强化学习中的环境通常由一个马尔可夫决策过程（Markov Decision Process, MDP；Bellman，1966）建模，可定义为一个五元组，其中：和分别表示状态空间和动作空间，其基数为和。是折扣因子。表示环境的状态转移分布。表示奖励函数。强化学习的目标是找到一个最优策略，使得在初始状态分布和情节长度下，期望累积奖励最大化，其目标函数为：。

现实场景往往面临延迟和稀疏反馈的挑战（Ke 等，2018；Han 等，2022）。一种极端情况是情节性强化学习（episodic RL），其中每条轨迹仅在结束时接收到一个非零奖励（Ren 等，2021）。情节性强化学习的目标是最大化期望情节奖励，即。情节性强化学习中的一个常见假设是情节奖励可以表示为总和形式的分解，即（Zhang 等，2024b）。

图1：LaRe概述（a）情节性奖励的概率模型，引入潜在奖励作为隐式变量。（b）LaRe框架由三个主要部分组成:（1）环境提示（Environment Prompting）：将任务信息纳入标准化提示中，指导LLM进行指令生成（具体细节见附录A）。（2）潜在奖励自验证（Latent Reward Self-verification）：在自提示阶段，LLM生成个候选响应，并合成改进后的响应。在预验证阶段，使用预收集的随机状态验证函数的可执行性。（3）贡献分配（Contribution Allocation）：通过函数推导潜在奖励，并通过奖励解码器模型用于估算代理奖励。

潜在奖励

本节详细阐述了LaRe的动机和实现。我们解释了潜在奖励的基本原理，并分析了其背后的概率模型。我们提出了一个框架LaRe，利用LLM的推理和泛化能力，同时解决了将任务相关先验知识融入其中以可靠地推导潜在奖励的挑战。我们从理论上证明了，通过减少与奖励无关的冗余，潜在奖励能够增强奖励建模，并改善强化学习的性能。

动机

在人类活动中，个体贡献通常从多个角度进行评估以获得全面的评价。然而，目前关于情节性信用分配的研究往往仅关注于对最终奖励值的回归（Arjona-Medina 等，2019；Efroni、Merlis 和 Mannor，2021），忽视了奖励是由多种隐性因素（例如成本和效率）的评估所决定的。受到从多个视角评估任务性能这一内在需求的启发，我们提出了“潜在奖励”的概念。从概念上讲，潜在奖励的不同维度捕捉了任务性能的各个方面。

形式化地，奖励是潜在奖励从一个基数为的空间映射到实数域的投影。应存在一个函数，使得奖励值域中的每个奖励至少有一个潜在奖励编码。引入潜在奖励后，如图1a所示，我们构建了一个新的情节奖励概率模型，揭示了逐步贡献的多维特性，从而更好地服务于强化学习的训练。模型表示如下：

其中，是映射函数，是从环境信息中推导潜在奖励的函数。直观上，潜在奖励的多个维度是通过基于先验知识压缩环境信息而获得的，因此它作为一种信息瓶颈（Tishby、Pereira 和 Bialek，2000），专门针对任务目标进行优化。

与直接从原始状态估计逐步奖励相比，潜在奖励在可解释性方面具有显著优势，因为每个维度都反映了任务性能的特定方面。此外，在仅依赖情节回报提供微弱信号的情节性强化学习中，直接建模奖励可能非常困难。从潜在奖励中学习更符合任务目标，并通过减少与奖励无关的冗余，简化了网络训练。

一种简单的方法是通过信息瓶颈方法获取潜在奖励，但这种方法由于每个任务都需要单独的编码器训练，导致语言可解释性有限且计算成本高。相比之下，LLM 的预训练已通过令牌形式捕获了更紧凑的表示，能够更好地实现跨任务的泛化。因此，利用 LLM 的先验知识可以从冗余的环境信息中更高效地提取可解释且多维的任务性能指标，即潜在奖励。

框架

利用 LLM 的先验知识和推理能力来推导潜在奖励以进行信用分配，需要应对以下三大挑战：（1）指导 LLM 使用最少的信息和精力为各种任务推导潜在奖励。（2）解决语言-符号的不匹配问题，同时缓解 LLM 推理中的随机性和幻觉，可靠地推导符号化的潜在奖励。（3）将潜在奖励应用于每个时间步的贡献分配以提升效果。本节介绍了所提出的 LaRe 中专门设计的三个组件，如图 1b 和算法 1 所示：

环境提示（Environment Prompting）。 为了指导 LLM，我们设计了易于在不同环境中迁移的标准化提示，包括模板化的角色指令（）和特定任务指令（），如图 1b 所示。角色指令在不同任务中保持一致，引导 LLM 按预定义方式进行思考：理解任务和状态识别与奖励相关的因素生成潜在奖励编码函数。只需要提供特定任务的必要任务描述和状态形式，这些信息可以从任务文档中轻松提取。任务描述主要包括环境概况和任务目标，而状态形式则详细说明状态空间中各维度的含义。我们的设计显著减少了跨任务繁重的提示工程工作量。

潜在奖励自验证。 由于 LLM 的知识以语言形式编码，而底层任务以符号状态表示，这种不匹配阻碍了 LLM 的直接应用。为有效整合 LLM，我们提出利用 LLM 的代码生成能力生成潜在奖励编码函数。其理论依据是语义生成的代码能够弥合语言知识与符号潜在奖励之间的差距，因为代码的执行是符号化的，并针对具体任务量身定制，这一特点已在先前研究中得到验证（Wang 等，2024）。鉴于 LLM 推理中的固有随机性和幻觉问题，受近期研究（Shinn 等，2023；Ma 等，2023）的启发，我们提出了一种带有自验证的潜在奖励生成过程，包括自提示和预验证，以增强稳定性和可靠性。

在自提示阶段，LLM首先生成个候选响应，每个响应都包括潜在奖励编码函数的代码实现：

然后，这些候选响应被输入到提示中，LLM 被提示总结出一个改进后的响应：

关于预验证，利用标准化响应模板，可以轻松地从响应中提取潜在奖励编码函数，该函数接受一个状态-动作对，并输出潜在奖励。然后，我们使用预先收集的随机状态-动作对验证，并向 LLM 提供错误反馈，直到可执行为止：

自验证显著提高了响应质量，通过减少在识别潜在奖励时的随机性并确保代码可执行性。LLM 清晰的语言响应和透明的思维过程提供了较高的可解释性，便于人工评估和干预。实证结果表明，我们的框架在无需多次迭代进化优化的情况下（Ma 等，2023）也能取得令人满意的结果。

贡献分配。 基于潜在奖励编码函数，我们采用了增强潜在奖励的回报分解方法，该方法基于 Efroni、Merlis 和 Mannor（2021）实现。设为一个由参数化的神经网络解码器。奖励建模的新目标可以表述为：

通过潜在奖励推导的代理奖励被纳入到 RL 训练过程中。利用潜在奖励多维性质所增强的时间信用分配，这些奖励通过缓解延迟和稀疏反馈的问题，从而改善了 RL 训练性能。

此外，我们通过实验证明，潜在奖励增强了多智能体之间的信用分配。这与直觉相符，因为在一个团队内评估智能体也是一种多维信用分配。因此，我们的方法为情节性的多智能体 RL 提供了一个实用的解决方案，减少了计算成本并提升了性能，使其非常适合于实际应用场景。

在实现中，我们使用了来自 OpenAI API 的 GPT-4o，详细的提示信息见附录 A。实际上，为了方便起见，我们将随机变量设定为确定性，这在以往的研究中也是一种常见的设置（Arjona-Medina 等，2019）。

图2：在MuJoCo中，不同状态空间维度任务的平均情节回报。值得注意的是，TD3-DR是通过稠密奖励进行训练的。

分析

借助 LLM 的潜在奖励保留了语义可解释性，同时减少了与奖励无关的冗余。这在理论上已被证明能够通过学习比基于状态的方法更好的奖励模型来提升 RL 的性能。

以往的研究通常通过最小化情节奖励与预测代理奖励之和之间的最小二乘误差，来使用原始状态作为输入学习奖励模型（Ren 等，2021）。映射函数，从状态-动作空间中减少了冗余且与奖励无关的特征。基于 Efroni、Merlis 和 Mannor（2021），在假设存在满足的潜在奖励函数的条件下，我们推导出了比未使用潜在奖励时更精确的奖励估计收敛界限以及更紧的 RL 后悔界限。具体证明请参见附录 B。

命题 1（奖励的更紧凑集中界限）。 令且。对于任意，以超过的概率，在所有情节索引下，均满足以下不等式：

命题 2（更紧的遗憾界限）。 对于任意和所有情节数量，RL 的遗憾定义为，满足以下不等式，以超过的概率成立：。

浓度界限通过量化代理奖励和真实奖励之间的距离，反映了奖励模型的表现，而后悔度则量化了 RL 的表现。命题 1 和 2 显示，这些界限与成正比，且低于原始状态-动作空间的界限。总体而言，潜在奖励改进了奖励函数学习，并提升了 RL 性能。

实验部分

我们在两个广泛使用的基准环境中评估了LaRe 的表现，包括单智能体和多智能体设置：MuJoCo运动基准（Todorov, Erez, 和 Tassa 2012）和Multi-Agent Particle Environment (MPE)（Lowe 等，2017）。此外，我们还进行了消融研究和进一步的分析，以验证LaRe的各个组成部分，并评估其特性。

实验设置

MuJoCo: 选择了 Reacher-v4、Walker2d-v4、HalfCheetah-v4 和 HumanoidStandup-v4任务（Towers 等，2023）。MPE (Multi-Agent Particle Environment): 使用了来自两个场景（Cooperative-Navigation (CN) 和 Predator-Prey (PP)）的六个任务，这些任务包含不同数量的智能体（6、15、30），基于 Chen 等（2023）的研究并进行了小幅修改，使得每个智能体在每一步都能获得独立的奖励。所有任务均为情节型任务，即只有单一非零的情节奖励，其等价于累积奖励。因此，多智能体任务既需要时间维度上的信用分配，也需要智能体间的信用分配。此外，我们在更复杂的场景中评估了LaRe的性能，包括来自SMAC (StarCraft Multi-Agent Challenge)的任务（Samvelyan 等，2019）以及一个新设计的任务TriangleArea。详细结果和分析请参见附录 D 和 E。

我们将LaRe与当前最先进的回报分解基线算法进行了对比，包括：RD（Efroni、Merlis 和 Mannor，2021），IRCR（Gangwani、Zhou 和 Peng，2020），Diaster（Lin 等，2024），RRD 和 RRD Unbiased（Ren 等，2021），此外，还比较了专为多智能体场景设计的算法：AREL（Xiao、Ramasubramanian 和 Poovendran，2022），STAS（Chen 等，2023），关于这些基线的介绍及其实现细节，请参见附录 C。

LaRe兼容多种强化学习算法，我们采用以下作为基础算法：TD3（Fujimoto、Hoof 和 Meger，2018）用于单智能体任务。IPPO（Yu 等，2022）用于多智能体任务。这与之前的相关研究（Ren 等，2021；Chen 等，2023）保持一致。每种算法在五个随机种子上运行，报告平均性能和标准偏差。更多详细信息和结果请参见附录。

LaRe的优越性

单智能体。 为了验证我们方法与各种回报分解算法的兼容性，我们实现了两种变体：LaRe-RD 和 LaRe-RRDu，分别基于 RD 和 RRD-unbiased。如图2所示，TD3 和 IRCR 的较差表现突出了分配个体贡献的重要性。我们的 LaRe 方法在 MuJoCo 任务上始终优于现有基准，表现出更高的样本效率和更好的收敛性。两种变体的 LaRe 都超过了相应的基准，突显了语义可解释的潜在奖励在信用分配中的有效性。LaRe 在具有大状态空间的任务中的有效性充分支持了我们的分析，强调了通过任务相关先验在潜在奖励中消除冗余的重要性，并解释了基准算法表现不佳的原因。

图3：在 MPE 中，不同数量智能体的任务的平均回报。值得注意的是，IPPO-DR 使用稠密奖励进行训练，而 LaRe w/o AD 表示不进行智能体间信用分配的 LaRe。

多智能体。 图3展示了 LaRe 与多种基准算法在 MPE 中的全面比较。基于 RD 实现的 LaRe 在不同数量的智能体任务中，表现出比所有现有基准更优的性能，确认了潜在奖励在多智能体任务中时间信用分配中的有效性。我们还包括了一个变体 LaRe w/o AD（没有智能体分解），其中不同智能体的代理奖励在同一时间步被平均。显著的性能下降突出了在智能体级别进行信用分配的必要性，以及 LaRe 在这方面的有效性。我们认为，语义可解释的潜在奖励解释了这一点，因为评估不同智能体的贡献也是一种直观的多维信用分配形式。AREL 和 STAS 的表现相对较差，尤其是在智能体数量增加时，可能是因为原始状态中的与奖励无关的项显著干扰了基于注意力的信用分配。

与稠密奖励的比较。 我们在 MuJoCo 和 MPE 中分别包括了 TD3-DR 和 IPPO-DR，这两个算法使用的是真实的稠密奖励进行训练。值得注意的是，尽管 LaRe 并不依赖于手动设计的奖励，其性能仍然与这些方法相当，甚至有所超越。原因在于，尽管真实奖励能够反映智能体的表现水平，但整体稳定性仍然受到成本、效率等隐性因素的影响，而这些因素被我们提出的基于 LLM 的潜在奖励充分捕捉到了。这个发现强调了利用任务相关的先验信息进行多维度性能评估，可以进一步提升 RL 性能，而不仅仅依赖于最终奖励值。

深入探讨潜在奖励

我们通过实验分析潜在奖励的具体性质及其优越性能的原因。

多维度测量的语义分析。 我们分析了LLM生成的潜在奖励函数，并以 HumanoidStandup-v4 为例。任务目标是使人形机器人站起来并通过施加扭矩来保持平衡（Towers 等，2023）。如图 4(b) 所示，LLM展示了对任务的正确理解，并衍生出了潜在奖励，作为多个维度上的可解释性能度量，例如高度和安全控制，这些与真实奖励函数一致。此外，LLM还考虑了稳定性，这更好地与任务目标对齐，进一步阐明了其相比于使用稠密奖励的基准方法的优越性能。详细内容请参见附录A。

图 4：(a)任务 HumanoidStandup-v4 的目标是使人形机器人站起来并保持平衡。(b)与真实奖励相比，LLM生成的潜在奖励还额外考虑了影响稳定性的隐性因素。

减少奖励无关冗余。 我们计算了原始状态或LLM生成的潜在奖励与真实密集奖励之间的皮尔逊相关系数（Cohen等，2009）。如表1所示，潜在奖励与真实奖励在各任务中具有更高的相关性。同时，潜在奖励的维度显著少于原始状态的维度。结果证实，潜在奖励通过任务相关的先验知识减少了奖励无关的冗余，从而改善了奖励预测，详见附录F.5。

表1：corr表示平均皮尔逊相关系数，dims表示原始状态或潜在奖励的平均维度数。此外，我们记录了未经过预验证（w/o PV）的LLM生成的潜在奖励函数的平均执行率exe_rate。

算法无关性。 值得注意的是，用于估算代理奖励的潜在奖励可以转移到各种强化学习框架中。这一特性确保了LaRe的应用前景，为与现实世界的方法结合开辟了可能性。我们在附录F.3中进行了详细的实验。

与异质代理兼容。 潜在奖励可以帮助在异质代理之间重新分配信用，甚至在竞争场景中也能发挥作用。像Lowe等人（2017）所做的，我们在任务“捕食者-猎物”中联合训练竞争性捕食者和猎物的策略。我们分别用LaRe和RD训练的策略进行对抗，捕食者和猎物由不同的策略控制。如图5所示，LaRe为捕食者和猎物学习到的策略均优于RD，这表明在竞争性多智能体场景中增强了信用分配。这一优势可以归因于潜在奖励的多面性。

图 5：LaRe与RD在竞争性捕食者-猎物（6个代理）任务中的对比。‘X vs Y’表示X控制猎物，Y控制捕食者。当直接对抗时，LaRe优于RD。

消融研究

潜在奖励中的奖励属性。 为了区分潜在奖励和单纯的状态表示，我们进行了一项消融研究，移除了奖励解码模型，称为“LaRe w/o RM”，该模型通过使用符号总结潜在奖励来估计代理奖励：。这些符号是通过最小化估计损失来获得的，该损失是基于情节奖励和代理奖励总和之间的差异。如图 6 所示，这一显著简化的模型超越了基于情节奖励的基线（TD3），确认了潜在奖励具有真正的奖励属性，而不仅仅是表示状态。

自我验证。 我们提出了自我提示（Self-prompting, SP）和预验证（Pre-verification, PV）方法，以减少LLM推理中的随机性和幻觉。如图6所示，优越的表现表明，自我提示有效地减少了LLM推理中的随机性，从而改善了LLM响应和RL性能。在表1中，我们比较了LLM生成的潜在奖励编码函数在有无预验证情况下的执行率，突出了预验证的重要性。结果验证了我们设计的将LLM集成到RL任务中的有效性。此外，附录F.1分析了候选响应数量的影响。

图6：奖励模型和提出的自我验证LLM生成的消融研究，以及LaRe与变分信息瓶颈的比较。

变分信息瓶颈。 我们提出了一种利用变分信息瓶颈（VIB）（Alemi 等，2017）来推导潜在奖励的替代方法。然而，如图6和附录F.2所示，LaRe显著优于VIB，这强调了LLM作为环境信息的通用编码器，在有效整合任务相关先验方面的重要性。我们在附录F.4中比较了LaRe与LLM奖励设计的表现。

结论

在本研究中，我们提出了LaRe，一个基于LLM的框架，用于在具有任务相关先验的情境下进行回报分配的 episodic 强化学习。该框架以潜在奖励为核心，其维度反映了任务绩效评估的不同方面。我们利用LLM的编码能力来解决将LLM融入强化学习任务中时的语言-符号不匹配问题，并提出了自我验证以确保LLM推理的可靠性。本研究的贡献包括：(i) 解决了以往被忽视的研究问题，包括由冗余和任务绩效评估的多维性质所引起的训练困难；(ii) 开发了一个在理论和实证上都表现出色的实用算法；(iii) 通过语义可解释的多维性能评估，推动了LLM先验知识在强化学习中的整合。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】