几个小时前(2023年7月18日),Meta发布了允许商用的开源模型LLaMA2。笔者逐行对比了LLaMA2模型源代码,和LLaMA相比,几乎没有改动,细节如下:
是否改动 | LLaMA2 | LLaMA | |
模型整体构架 | 无 | Transformer | Transformer |
规范化函数 | 无 | 均方根规范化(RMSNorm) | 均方根规范化(RMSNorm) |
位置编码 | 无 | 复数形式的旋转位置编码(RoPE) | 复数形式的旋转位置编码(RoPE) |
激活函数 | 无 | SiLU | SiLU |
注意力机制 | 略有改动 | 分组查询多头注意力机制 | 多头注意力机制 |
前馈函数 | 无 | 逐元素前馈函数 | 逐元素前馈函数 |
连接 | 无 | 残差连接 | 残差连接 |
掩码 | 无 | 因果掩码 | 因果掩码 |
推理 | 略有改动 | 自回归推理 | 自回归推理 |
第二版的模型代码,增加