大模型
目 录
01 大模型架构
02 llama3简介
03 大模型微调概述
04 大模型高效微调方法
大模型架构
Encoder-only模型
Decoder-only模型
代表模型
OpenAI的GPT , Meta的Llama
特点
在Decoder-Only模型架构中 , 模型只包含
一个解码器 ,没有编码器。
优点
专注于生成部分 ,能够生成连贯、有创造性 的文本 ,灵活性高。
缺点
理解能力较差 ,不擅长理解复杂的输入。
适用场景
常用于生成任务。
Encoder-decoder模型 | |
代表模型 | |
Google的T5模型 ,清华的GLM | |
特点 | |
利用编码器对输入序列进行编码 , 提 取其特征和语义信息 , 并将编码结果 传递给解码器。 然后 , 解码器根据编 码结果生成相应的输出序列。 | |
优点 | |
灵活强大: 能够理解复杂输入并生成 相关输出。 |
Encoder-decoder模型
缺点
架构复杂:相比单一的Encoder
或Decoder, 它更复杂。需要更 多的数据和计算资源。
llama3 简介
单击此处添加标题
Meta 最新发布的 Llama 3 语 言模型。作为目前开源领域最强 大的LLM, Llama 3不仅在基准 测试中取得了领先成绩 ,在真实 世界应用中的表现也令人惊叹。 它标志着开源 A I 进入了一个新 的纪元。
性能对比
llama网络结构
模型架构优化
01 Llama 3使用了128 , 000个词的大型词表, 相比Llama 2的50 , 000个词大幅增加
02 Llama 3还采用了
Grouped Query
Attention (GQA ,分 组查询注意力)机制
GQA
DPO
• DPO(直接偏好优化)简化了RLHF流程。 它的工作原理是创建人类偏好对的数据集 ,每 个偏好对都包含一个提示和两种可能的完成方式——一种是首选 ,一种是不受欢迎。
然后对LLM进行微调 , 以最大限度地提高生成首选完成的可能性 ,并最大限度地减少 生成不受欢迎的完成的可能性。与传统的微调方法相比 , DPO 绕过了建模奖励函数这 一步 ,设计一种包含正负样本对比的损失函数,通过直接在偏好数据上优化模型来提高 性能。 (即不训练奖励模型 ,语言模型直接做偏好优化)
PPO
• PPO (近端策略优化) 的核心是通过优化一个特定的目标函数来进行策略更新, 目标函数设计了一个重要性采样的权重 ,用以衡量当前策略与旧策略之间的差 异。 PPO 利用这个权重来限制更新幅度 ,避免更新过程中出现破坏性的大幅度 变动。
数据优化
Llama 3的预训练数据规模达
到了15万亿tokens ,是
Llama 2的近7倍。这个庞大 的数据集不仅覆盖了丰富的 英语语料 ,还包括了5%的高 质量非英语数据 , 为未来的 多语言支持奠定了基础。
大模型微调概 述
LLM微调
LLM微调是一个将预训练模型在较小、特定数据集 上进一步训练的过程 , 目的是精炼模型的能力 ,提 高其在特定任务或领域上的性能。微调的目的是将 通用模型转变为专用模型 ,弥合通用预训练模型与 特定应用需求之间的差距 ,确保语言模型更贴近人 类的期望。
随着技术的发展 ,涌现出越来 越多的大语言模型 ,且模型参 数越来越多 , 比如 GPT3 已
经达到 1750 亿的参数量 ,传 统的监督微调方法已经不再能 适用现阶段的大语言模型。 为 了解决微调参数量太多的问题, 同时也要保证微调效果 ,急需 研发出参数高效的微调方法
(Parameter Efficient Fine Tuning, PEFT)。
大模型高效微 调
• Additive类:在预训练模型基础上增加额外的参数或者网络层 ,微调训练的时候只训练这 些新增的参数或层 ,包含两个子类:
• 1)Adapter--在Transformer子层后加入小的全连接层 ,微调只学习新加的全连接层参数。
• 2) Soft Prompts--常见的Prompts方法是在输入中构造Prompts模板 ,如何构造是一门学 问 , Soft Prompts直接在输入的embedding中加向量作为soft prompts ,并对这些向量的 参数进行微调 ,避免构造Prompts模板。
• Selective类:选择模型中的部分层比如最后几层、或偏置项进行微调。
• Reparametrization-based类:利用低秩表征( low-rank representations)来最小化可训 练的参数 ,本质上就是认为大量的参数中 ,仅仅一部分起到关键作用 ,在这个起关键作 用的子空间中去寻找参数进行微调。
torage、 Memroy 表示该方法和全 部参数微调比较 是否节约了存储、 内存 。 Backprop 表示是否减小了 反向传播计算开 销 , I nfe r e n c e overhead表示推 理时是否增加了 开销
LoRA
h=W0x+△Wx=W0x+BAx
Adapters
• 在预训练模型的每一层之间添加一个小的参数适配器( adapter) 。这些适配器 模块是由一小部分参数组成的额外的前馈神经网络 ,可以将一层的输出转换为 下一层的输入。在微调过程中 ,只更新这些适配器的参数 , 而预训练模型的其 余参数保持不变。 因而Adapters引入额外的推理延迟 (由于增加了模型层数)。
Selective类
• BitFit
• BitFit十分简洁明了 ,在Transformer结构中只微调所有偏置项bias参数。
谢谢
图片转存失败,想看这篇文章的小伙伴可以去下载pdf 版本。