大模型相关介绍

大模型

 

01     大模型架构

02     llama3简介

03     大模型微调概述

04     大模型高效微调方法

大模型架构

Encoder-only模型

Decoder-only模型

代表模型

OpenAIGPT  MetaLlama

特点

Decoder-Only模型架构中  模型只包含

一个解码器 ,没有编码器

优点

专注于生成部分 ,能够生成连贯、有创造性 的文本 ,灵活性高。

缺点

理解能力较差 ,不擅长理解复杂的输入。

适用场景

常用于生成任务。

Encoder-decoder模型

代表模型

Google的T5模型 ,清华的GLM

特点

利用编码器对输入序列进行编码   取其特征和语义信息  并将编码结果 传递给解码器。 然后  解码器根据编 码结果生成相应的输出序列。

优点

灵活强大: 能够理解复杂输入并生成 相关输出。

Encoder-decoder模型

缺点

架构复杂:相比单一的Encoder

或Decoder, 它更复杂。需要更 多的数据和计算资源。

llama3 简介 

单击此处添加标题

Meta 最新发布的 Llama 3 语   言模型。作为目前开源领域最强 大的LLM, Llama 3不仅在基准  测试中取得了领先成绩 ,在真实 世界应用中的表现也令人惊叹。 它标志着开源 A I 进入了一个新  的纪元。

性能对比

llama网络结构

模型架构优化

01     Llama 3使用了128  000个词的大型词表, 相比Llama 2的50    000个词大幅增加

02     Llama 3还采用了

Grouped Query

Attention (GQA ,分 组查询注意力)机制

GQA

DPO

  DPO(直接偏好优化)简化了RLHF流程。 它的工作原理是创建人类偏好对的数据集 ,每 个偏好对都包含一个提示和两种可能的完成方式——一种是首选 ,一种是不受欢迎。

然后对LLM进行微调  以最大限度地提高生成首选完成的可能性 ,并最大限度地减少  生成不受欢迎的完成的可能性。与传统的微调方法相比  DPO 绕过了建模奖励函数这 一步 ,设计一种包含正负样本对比的损失函数,通过直接在偏好数据上优化模型来提高 性能。 (即不训练奖励模型 ,语言模型直接做偏好优化)

PPO

 PPO (近端策略优化) 的核心是通过优化一个特定的目标函数来进行策略更新, 目标函数设计了一个重要性采样的权重 ,用以衡量当前策略与旧策略之间的差     异。 PPO 利用这个权重来限制更新幅度 ,避免更新过程中出现破坏性的大幅度   变动。

数据优化

Llama 3的预训练数据规模达

到了15万亿tokens ,是

Llama 2的近7倍。这个庞大 的数据集不仅覆盖了丰富的  英语语料 ,还包括了5%的高 质量非英语数据  为未来的  多语言支持奠定了基础。

大模型微调概 

LLM微调

LLM微调是一个将预训练模型在较小、特定数据集 上进一步训练的过程  目的是精炼模型的能力 ,提 高其在特定任务或领域上的性能。微调的目的是将 通用模型转变为专用模型 ,弥合通用预训练模型与 特定应用需求之间的差距 ,确保语言模型更贴近人 类的期望。

随着技术的发展 ,涌现出越来 越多的大语言模型 ,且模型参 数越来越多  比如 GPT3 

经达到 1750 亿的参数量 ,传    统的监督微调方法已经不再能   适用现阶段的大语言模型。    了解决微调参数量太多的问题, 同时也要保证微调效果 ,急需   研发出参数高效的微调方法

(Parameter Efficient Fine Tuning, PEFT)。

大模型高效微 调

 Additive类:在预训练模型基础上增加额外的参数或者网络层 ,微调训练的时候只训练这 些新增的参数或层 ,包含两个子类:

•  1Adapter--Transformer子层后加入小的全连接层 ,微调只学习新加的全连接层参数。

 2 Soft Prompts--常见的Prompts方法是在输入中构造Prompts模板 ,如何构造是一门学   Soft Prompts直接在输入的embedding中加向量作为soft prompts ,并对这些向量的 参数进行微调 ,避免构造Prompts模板。

 Selective类:选择模型中的部分层比如最后几层、或偏置项进行微调。

  Reparametrization-based类:利用低秩表征( low-rank representations)来最小化可训 练的参数 ,本质上就是认为大量的参数中 ,仅仅一部分起到关键作用 ,在这个起关键作 用的子空间中去寻找参数进行微调。

torage Memroy 表示该方法和全 部参数微调比较 是否节约了存储、 内存  Backprop 表示是否减小了 反向传播计算开  I nfe r e n c e overhead表示推 理时是否增加了 开销

LoRA

h=W0x+Wx=W0x+BAx

Adapters

 在预训练模型的每一层之间添加一个小的参数适配器( adapter 。这些适配器 模块是由一小部分参数组成的额外的前馈神经网络 可以将一层的输出转换为  下一层的输入。在微调过程中 ,只更新这些适配器的参数  而预训练模型的其  余参数保持不变。 因而Adapters引入额外的推理延迟 (由于增加了模型层数)

Selective

 BitFit

 BitFit十分简洁明了 ,在Transformer结构中只微调所有偏置项bias参数。

谢谢              

图片转存失败,想看这篇文章的小伙伴可以去下载pdf 版本。

  • 18
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值