从0开始构建大语言模型(LLM)
文章平均质量分 70
为 ChatGPT、Bard 和 Copilot 等尖端 AI 工具提供动力的大型语言模型 (LLMs) 似乎是一个奇迹,但它们并不是魔术。这本书LLMs通过帮助你从头开始构建自己的来揭开神秘面纱。您将获得对工作原理LLMs的独特而有价值的见解,学习如何评估其质量,并掌握具体技术来微调和改进它们。
这就是编程
十年互联网开发老兵,前阿里巴巴技术专家,面试官
展开
-
06.构建大型语言模型步骤
LLMs改变了自然语言处理领域,该领域以前依赖于明确的基于规则的系统和更简单的统计方法。LLMs引入了新的深度学习驱动方法,导致了理解、生成和翻译人类语言的进步。原创 2024-01-10 15:52:59 · 672 阅读 · 0 评论 -
05. 深入理解 GPT 架构
GPT 模型可以“学习”语言之间的翻译模式并执行翻译任务,即使它们没有经过专门训练,这一事实证明了这些大规模生成语言模型的优势和能力。我们可以执行不同的任务,而无需对每个任务使用不同的模型。原创 2024-01-10 15:25:46 · 1225 阅读 · 0 评论 -
04.利用大型数据集
我们将实现预训练代码,并使用它来预训练用于LLM教育目的。所有计算都将在消费类硬件上执行。在实现预训练代码之后,我们将学习如何重用公开可用的模型权重,并将它们加载到我们将要实现的架构中,从而在本书后面进行微调LLMs时跳过昂贵的预训练阶段。原创 2024-01-10 15:02:12 · 249 阅读 · 0 评论 -
03.用于LLMs不同的任务-transformer 架构
今天的LLMs基于上一节中介绍的 transformer 架构。因此,transformers 和 LLMs 是文献中经常使用的同义词。但是,请注意,并非所有变压器都是,LLMs因为变压器也可用于计算机视觉。此外,并非所有LLMs模型都是transformers,因为存在基于递归和卷积架构的大型语言模型。这些替代方法背后的主要动机是提高 LLMs的计算效率。然而,这些替代LLM架构是否能够与基于LLMs变压器的功能竞争,以及它们是否会在实践中被采用还有待观察。原创 2024-01-10 14:54:35 · 565 阅读 · 0 评论 -
02.构建和使用的大型语言模型(LLMs)阶段
我们将介绍预训练和微调的代码实现LLM,我们将在本书后面的预训练基础LLM后更深入地研究指令微调和分类微调的细节原创 2024-01-10 14:46:33 · 490 阅读 · 0 评论 -
01.大型语言模型背后的基本概念的高级解释 (LLMs)
在课程中,我们将专注于从头开始理解如何LLMs工作,编写可以生成文本LLM的编码。我们还将学习允许LLMs执行查询的技术,从回答问题到总结文本、将文本翻译成不同的语言等等。换句话说,在本书中,我们将通过一步一步的构建来了解 ChatGPT 等复杂LLM助手的工作原理。原创 2024-01-10 10:55:50 · 833 阅读 · 0 评论 -
从头开始构建大语言模型(LLM)
在本课程中,你用来训练和开发自己的小型但功能强大的模型的过程,遵循了用于交付大规模基础模型(如 GPT-4)的相同步骤。你的小规模LLM可以在普通笔记本电脑上开发,你将能够将其用作自己的个人助理。原创 2024-01-09 14:32:52 · 1161 阅读 · 0 评论