大模型理论基础-新的模型架构 学习笔记

动机:
提出新架构主要是因为Transformer这种稠密的模型架构对于资源的消耗度极大,扩展这类模型很难,需要数据,模型和流水并行等多种方法。

目前来说,规模已经到了极限。因此,部分研究提出一种“新”的 架构,试图提高大模型的能力上限,同时又不会被规模所限制。

混合专家模型

基础知识

其实就是多个弱学习器组合起来通过门控函数控制的集成学习算法。

Sparsely-gated mixture of experts (Lepikhin et al. 2021)

对每个token或每层Transformer block应用混合专家系统

  • 将前馈网络转变为MoE前馈网络:
    在这里插入图片描述
  • 隔层使用MoE Transformer block
  • 设计特别的门控函数

在这里插入图片描述

  • 平衡专家
    在这里插入图片描述

Switch Transformer

在这里插入图片描述
稀疏到单个专家(这真的能靠谱嘛

Balanced Assignment of Sparse Experts (BASE) layers (Lewis et al., 2021)

在这里插入图片描述

这里剩下的文献堆叠并没有什么分析。。。不如有空去看原文到底在针对大模型特性上做了什么优劣处理对比

基于检索的模型

类似于QA任务中,为大模型提供一个问答库,从而可以使用较小的大模型来完成同等质量的QA任务。

检索方法

在这里插入图片描述

剩下也是方法堆叠,暂不做整理。

总结

两类利用弱分类器和外部知识的方法可以有效缓解稠密Transformer带来的规模难以scale的问题。
目前尚不清楚这些模型是否具有与稠密Transformer相同的通用能力。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值