为什么现在的LLM都是Decoder only的架构

最新推荐文章于 2025-03-31 22:20:38 发布

u013250861

最新推荐文章于 2025-03-31 22:20:38 发布

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM 文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/130745382

LLM 专栏收录该内容

135 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

当前大型语言模型（LLM）普遍采用Decoder-only架构，原因包括训练效率、工程实现的优势，以及理论上的考虑。Encoder的双向注意力可能引发低秩问题，降低模型表达能力，对于生成任务并不必要。Encoder-Decoder架构的优势可能仅在于参数数量翻倍。因此，Decoder-only架构在同等参数量和推理成本下成为更优选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

结论：

LLM之所以主要都用Decoder-only架构，除了训练效率和工程实现上的优势外，在理论上是因为Encoder的双向注意力会存在低秩问题，这可能会削弱模型表达能力，就生成任务而言，引入双向注意力并无实质好处。而Encoder-Decoder架构之所以能够在某些场景下表现更好，大概只是因为它多了一倍参数。所以，在同等参数量、同等推理成本下，Decoder-only架构就是最优选择了。

为什么现在的LLM都是Decoder-only的架构？ - 科学空间|Scientific Spaces

为什么现在的LLM都是Decoder only的架构？ - 知乎

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。