参考1 decoder only: 1、低秩问题,可能会削弱模型表达能力。 2、打破了位置不变性 -kv cache节省速度 3、flash attention 优化了框架结构、Scaling Law的支持。 而Encoder-Decoder架构之所以能够在某些场景下表现更好,大概只是因为它多了一倍参数。所以,在同等参数量、同等推理成本下,Decoder-only架构就是最优选择了。 参考2