本文将汇总大模型常用的算子定义,方便快速根据定义公式评估其计算量。 LayerNorm 这是在BERT、GPT等模型中广泛使用的LayerNorm: RMSNorm RMSNorm(root mean square)发现LayerNorm的中心偏移没什么用(减去均值等操作)。将其去掉之后,效果几乎不变,但是速度提升了40%。最终公式为: 注意除了没有减均值,加偏置以外,分母上求的RMS而不是方差 SwiGLU/SiLU LLaMA没有使用ReLU,而是使用了