- 博客(1)
- 收藏
- 关注
原创 笔记整理:从LayerNorm到RMSNorm
# 先回忆batchnorm和layernormlayernorm是针对每个句⼦的,求均值和⽅差,是⾃然语⾔处理的任务中常⽤,也是原来transformer⽤的batchnorm是对所有batch的同⼀个位置的句⼦,求均值和⽅差的,在图像任务中常⽤# RMSNorm⽤layernorm的思想,但是计算开销更少,因为不需要均值,效果基本不变。 如下⾯公式所⽰,对每个句⼦,求它的平⽅和的均值的开⽅,然后对每个元素归⼀化即可 ⾄于位置,现在所有⼤模型基本上都在norm放在最前⾯。比如先RMSNorm,再送入Q
2025-08-25 00:29:20
114
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅