阿里的Qwen模型和Baichuan、LLaMA模型在架构上主要有以下几个区别:
- 激活函数不同。Qwen使用了SwiGLU激活函数,而Baichuan和LLaMA使用了其他类型的激活函数。3
- 位置编码方式不同。Qwen使用了RMSNorm对Transformer的输入进行归一化,而Baichuan使用了ALiBi位置编码。3 位置编码Baichuan:7B Rope,13B ALiBi
- 优化器不同。Qwen使用了AdamW优化器,而Baichuan和LLaMA使用了其他优化方法。3
- 注意力机制实现不同。Qwen使用了基于xFormers的更高效的注意力机制实现,而Baichuan和LLaMA使用了不同的注意力机制。