大模型相关介绍

微雨盈萍cbb

已于 2024-06-27 09:30:16 修改

阅读量421

点赞数 18

分类专栏：大模型文章标签： transformer pytorch 人工智能 python 深度学习

于 2024-06-18 13:31:22 首次发布

本文链接：https://blog.csdn.net/SWZ156/article/details/139739783

版权

大模型专栏收录该内容

5 篇文章 0 订阅

订阅专栏

大模型

01 大模型架构

02 llama3简介

03 大模型微调概述

04 大模型高效微调方法

大模型架构

Encoder-only模型

Decoder-only模型

代表模型

OpenAI的GPT ， Meta的Llama

特点

在Decoder-Only模型架构中，模型只包含

一个解码器，没有编码器。

优点

专注于生成部分，能够生成连贯、有创造性的文本，灵活性高。

缺点

理解能力较差，不擅长理解复杂的输入。

适用场景

常用于生成任务。

Encoder-decoder模型
代表模型
Google的T5模型，清华的GLM
特点
利用编码器对输入序列进行编码，提取其特征和语义信息，并将编码结果传递给解码器。然后，解码器根据编码结果生成相应的输出序列。
优点
灵活强大：能够理解复杂输入并生成相关输出。

Encoder-decoder模型

缺点

架构复杂：相比单一的Encoder

或Decoder，它更复杂。需要更多的数据和计算资源。

llama3 简介

单击此处添加标题

Meta 最新发布的 Llama 3 语言模型。作为目前开源领域最强大的LLM， Llama 3不仅在基准测试中取得了领先成绩，在真实世界应用中的表现也令人惊叹。它标志着开源 A I 进入了一个新的纪元。

性能对比

llama网络结构

模型架构优化

01 Llama 3使用了128 ， 000个词的大型词表，相比Llama 2的50 ， 000个词大幅增加

02 Llama 3还采用了

Grouped Query

Attention (GQA ，分组查询注意力)机制

GQA

DPO

• DPO(直接偏好优化)简化了RLHF流程。它的工作原理是创建人类偏好对的数据集，每个偏好对都包含一个提示和两种可能的完成方式——一种是首选，一种是不受欢迎。

然后对LLM进行微调，以最大限度地提高生成首选完成的可能性，并最大限度地减少生成不受欢迎的完成的可能性。与传统的微调方法相比， DPO 绕过了建模奖励函数这一步，设计一种包含正负样本对比的损失函数,通过直接在偏好数据上优化模型来提高性能。 (即不训练奖励模型，语言模型直接做偏好优化)

PPO

• PPO （近端策略优化）的核心是通过优化一个特定的目标函数来进行策略更新，目标函数设计了一个重要性采样的权重，用以衡量当前策略与旧策略之间的差异。 PPO 利用这个权重来限制更新幅度，避免更新过程中出现破坏性的大幅度变动。

数据优化

Llama 3的预训练数据规模达

到了15万亿tokens ，是

Llama 2的近7倍。这个庞大的数据集不仅覆盖了丰富的英语语料，还包括了5%的高质量非英语数据，为未来的多语言支持奠定了基础。

大模型微调概 述

LLM微调

LLM微调是一个将预训练模型在较小、特定数据集上进一步训练的过程，目的是精炼模型的能力，提高其在特定任务或领域上的性能。微调的目的是将通用模型转变为专用模型，弥合通用预训练模型与特定应用需求之间的差距，确保语言模型更贴近人类的期望。

随着技术的发展，涌现出越来越多的大语言模型，且模型参数越来越多，比如 GPT3 已

经达到 1750 亿的参数量，传统的监督微调方法已经不再能适用现阶段的大语言模型。为了解决微调参数量太多的问题，同时也要保证微调效果，急需研发出参数高效的微调方法

（Parameter Efficient Fine Tuning, PEFT）。

大模型高效微 调

• Additive类：在预训练模型基础上增加额外的参数或者网络层，微调训练的时候只训练这些新增的参数或层，包含两个子类：

• 1）Adapter--在Transformer子层后加入小的全连接层，微调只学习新加的全连接层参数。

• 2） Soft Prompts--常见的Prompts方法是在输入中构造Prompts模板，如何构造是一门学问， Soft Prompts直接在输入的embedding中加向量作为soft prompts ，并对这些向量的参数进行微调，避免构造Prompts模板。

• Selective类：选择模型中的部分层比如最后几层、或偏置项进行微调。

• Reparametrization-based类：利用低秩表征（ low-rank representations）来最小化可训练的参数，本质上就是认为大量的参数中，仅仅一部分起到关键作用，在这个起关键作用的子空间中去寻找参数进行微调。

torage、 Memroy 表示该方法和全部参数微调比较是否节约了存储、内存。 Backprop 表示是否减小了反向传播计算开销， I nfe r e n c e overhead表示推理时是否增加了开销

LoRA

h=W0x+△Wx=W0x+BAx

Adapters

• 在预训练模型的每一层之间添加一个小的参数适配器（ adapter）。这些适配器模块是由一小部分参数组成的额外的前馈神经网络，可以将一层的输出转换为下一层的输入。在微调过程中，只更新这些适配器的参数，而预训练模型的其余参数保持不变。因而Adapters引入额外的推理延迟 (由于增加了模型层数)。

Selective类

• BitFit

• BitFit十分简洁明了，在Transformer结构中只微调所有偏置项bias参数。

谢谢

图片转存失败，想看这篇文章的小伙伴可以去下载pdf 版本。

微雨盈萍cbb

关注

18
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
大模型相关介绍

图片转存失败，想看这篇文章的小伙伴可以去下载pdf 版本。类：选择模型中的部分层比如最后几层、或偏置项进行微调。的核心是通过优化一个特定的目标函数来进行策略更新，生成不受欢迎的完成的可能性。在预训练模型的每一层之间添加一个小的参数适配器（类：在预训练模型基础上增加额外的参数或者网络层。模块是由一小部分参数组成的额外的前馈神经网络。个偏好对都包含一个提示和两种可能的完成方式。高其在特定任务或领域上的性能。它的工作原理是创建人类偏好对的数据集。用的子空间中去寻找参数进行微调。世界应用中的表现也令人惊叹。
复制链接

扫一扫

专栏目录