为什么现在的LLM都是Decoder only的架构

当前大型语言模型(LLM)普遍采用Decoder-only架构,原因包括训练效率、工程实现的优势,以及理论上的考虑。Encoder的双向注意力可能引发低秩问题,降低模型表达能力,对于生成任务并不必要。Encoder-Decoder架构的优势可能仅在于参数数量翻倍。因此,Decoder-only架构在同等参数量和推理成本下成为更优选择。
摘要由CSDN通过智能技术生成

结论:

LLM之所以主要都用Decoder-only架构,除了训练效率和工程实现上的优势外,在理论上是因为Encoder的双向注意力会存在低秩问题,这可能会削弱模型表达能力,就生成任务而言,引入双向注意力并无实质好处。而Encoder-Decoder架构之所以能够在某些场景下表现更好,大概只是因为它多了一倍参数。所以,在同等参数量、同等推理成本下,Decoder-only架构就是最优选择了。




为什么现在的LLM都是Decoder-only的架构? - 科学空间|Scientific Spaces

为什么现在的LLM都是Decoder only的架构? - 知乎 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值