AI算法
等待完成
框架
pytorch
训练
layernorm和batchnorm区别
- BatchNorm 是一种在训练过程中对每个小批量(mini-batch)数据进行归一化的技术。它通过规范化层的输入来减少内部协变量偏移,即确保网络的每一层输入数据的分布保持相对稳定。引入了额外的可训练参数(缩放因子和偏移)。
- 可以减少梯度消失或爆炸的问题
- 有时可以替代Dropout
- 但在小批量大小下效果不佳
- LayerNorm 是对神经网络中的单个样本的所有激活进行归一化,而不是整个小批量。这种归一化方式对批量大小不敏感,因此在批量大小较小或变化时更为稳定。
- 并行处理不如BatchNorm高效
ML
[TODO]
NLP
[TODO]