【Datawhale X 魔搭AI夏令营】大模型应用开发方向 Task 1-CSDN博客

本文链接：https://blog.csdn.net/m0_53374676/article/details/141114284

动手学大模型应用全栈开发

DataWhale (linklearner.com)

学习内容概览：

背景知识与概念：

语言模型（Language Model）：用于预测词序列中下一个词或缺失词的概率，以此模拟人类语言的内在规律。
大型语言模型（Large Language Model, LLM）：这类模型基于“扩展法则”，通过增加模型参数和训练数据量来提升其在下游任务上的表现，并展现出小模型不具备的“涌现能力”。代表性作品包括 GPT-3、ChatGPT、Claude 和 Llama 等。

构建过程： 大模型的构建通常包括以下几个阶段：

预训练（Pretraining）：使用大量数据进行模型参数的初始学习，目的是为模型参数寻找一个优秀的起始点。
有监督微调（Supervised Fine-tuning, SFT）：在此阶段，模型已具备强大的基础能力，能够编码丰富的世界知识。然而，由于预训练任务的局限性，模型更擅长文本补全而非直接解决问题。此方法通过成对的任务输入与预期输出数据，训练模型学会以问答形式回答问题，进而激发其解决问题的能力。
基于人类反馈的强化学习对齐（Reinforcement Learning from Human Feedback, RLHF）：核心在于构建一个能够反映人类价值观的奖励模型。该模型的训练依赖于人类专家对模型多种输出的偏好排序，通过偏好数据训练出的奖励模型能有效地评估模型输出的质量。