本次阅读书目:《大规模语言模型:从理论到实践》
作者:张奇、桂韬、郑锐、⻩萱菁
出版时间:2023 年 9 月 10 日
一、带着学习目的读书
同事推荐的书,因为读完上一本AI技术相关的书后,疑问更深了。
那就继续阅读吧。
定个小目标,先读10本相关的书。
本书思维导图:
二、学习心得分享
(一)大规模语言模型基本概念
LLM:大规模语言模型(Large Language Models,LLM),也称大语言模型 或大型语言模型 ,是一种由包 含数百亿以上参数的深度神经网络构建的语言模型,通常使用自监督学习方法通过大量无标注文 本进行训练。
LM:语言模型(Language Model,LM), 目标就是建模自然语言的概率分布。
大语言模型的发展历程:从n元语言模型到神经语言模型,再到预训练语言模型。
大规模语言模型发展时间线:
深度神经网络需要采用有监督方法,使用标注数据进行训练,因此,语言模型的训练过程也不 可避免需要构造训练语料。但是由于训练目标可以通过无标注文本直接获得,从而使得模型的训 练仅需要大规模无标注文本即可。语言模型也成为了典型的自监督学习(Self-supervised Learning) 任务 。互联网的发展,使得大规模文本非常容易获取,因此训练超大规模的基于神经网络的语言 模型也成为了可能。
将预训练模型应用于下 游任务时,不需要了解太多的任务细节,不需要设计特定的神经网络结构,只需要“微调”预训 练模型,使用具体任务的标注数据在预训练语言模型上进行监督训练,就可以取得显著的性能提 升。这类方法通常称为预训练语言模型(Pre-trained Language Models,PLM)。
大语言模型构建的四个主要阶段:预训练、有监督微调、奖励建模和强化学习。
OpenAI 使用的大规模语言模型构建流程:
(二)大语言模型基础
Transformer 模型:是谷歌在 2017 年提出并首先应用于机器翻译的神经网络模型结构。
生成式预训练语言模型 GPT:由多层 Transformer 组成的单向语 言模型,主要分为输入层,编码层和输出层三部分。
(三)语言模型训练数据
数据来源:通用数据和专业数据。
数据处理:低质过滤、冗余去除、隐私消除、词元切分。
数据影响分析:数据规模、质量、多样性对模型性能的影响。
开源数据集合:Pile、ROOTS、RefinedWeb、SlimPajama等。
(四)分布式训练
分布式训练将模型训练任务拆分成多个子任务,分发给多个计算设备。
并行策略:数据并行、模型并行、混合并行。
集群架构:高性能计算集群硬件组成、参数服务器架构、去中心化架构
DeepSpeed 实践:它 采用了多种技术手段来加速训练,包括模型并行化、梯度累积、动态精度缩放和本地模式混合精 度等。此外,DeepSpeed 还提供了一些辅助工具,例如分布式训练管理、内存优化和模型压缩,以 帮助开发者更好地管理和优化大规模深度学习训练任务。
DeepSpeed 软件架构:
(五)有监督微调
有监督微调(Supervised Finetuning, SFT)又称指令微调(Instruction Tuning),是指在已经训练 好的语言模型的基础上,通过使用有标注的特定任务数据进行进一步的微调,从而使得模型具备 遵循指令的能力。
提示学习和语境学习:利用少量高质量数据集合进行微调。
高效模型微调:LoRA、Delta Tuning等模型高效微调方法。
指令数据构建:手动构建指令、自动生成指令、开源指令数据集。
(六)强化学习
模型不能适用自然语言多样性, 也不能解决微小变化的敏感性问题。强化学习则将模型输出文本作为一个整体进行考虑,其优化 目标是使得模型生成高质量回复。
奖励模型:数据收集、模型训练、开源数据。
近端策略优化:策略梯度、广义优势估计、近端策略优化算法。
(七)大语言模型应用
推理规划:
思维链提示:除了将问题输入给 模型外,还将类似题目的解题思路和步骤输入模型,使得模型不仅输出最终结果,还输出中间步骤, 从而提升模型的推理能力的方法。
由少至多提示:利用大语言模型的规划能力,将复杂问题分解为一系列的子问题并依次解 决它们。
综合应用框架:
LangChain框架核心模块:核心目标是为了连接多种大语言模型(如 OpenAI、LLaMA 等)和外部资源 (如 Google、Wikipedia、Notion 以及 Wolfram 等),提供抽象和工具以在文本输入和输出之间进行接口处理。
LangChain 的提供了以下 6 种标准化、可扩展的接口并且可以外部集成的核心模块:模型输 入/输出(Model I/O)与语言模型交互的接口;数据连接(Data connection)与特定应用程序的数据进行交互的接口;链(Chains)用于复杂的应用的调用序列;智能体(Agents)语言模型作为推 理器决定要执行的动作序列;记忆(Memory)用于链的多次运行之间持久化应用程序状态;回调 (Callbacks)记录和流式传输任何链式组装的中间步骤。
知识库问答实践。
知识库问答系统主要包含以下几个主要步 骤:
(1)收集领域知识数据构造知识库,这些数据应当能够尽可能的全面覆盖问答需求;
(2)将知 识库中的对非结构数据进行文本提取和文本拆分,得到文本块;
(3)利用嵌入向量表示模型给出 文本块嵌入表示,并利用向量数据库进行保存;
(4)根据用户输入信息的嵌入表示,通过向量数据 库检索得到最相关文本片段,利用提示词模板与用户输入以及历史消息合并输入大语言模型;
(5) 将大语言模型结果返回用户。
如何系统的去学习大模型LLM ?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为
等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近70次后,终于把整个AI大模型的学习门槛,降到了最低!
在这个版本当中:
第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言
您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
一、LLM大模型经典书籍
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。
二、640套LLM大模型报告合集
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
三、LLM大模型系列视频教程
四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)
五、AI产品经理大模型教程
LLM大模型学习路线 ↓
阶段1:AI大模型时代的基础理解
-
目标:了解AI大模型的基本概念、发展历程和核心原理。
-
内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
-
目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
-
内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望
阶段3:AI大模型应用架构实践
-
目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
-
内容:
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
-
目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
-
内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
这份 LLM大模型资料
包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓