0. 说明
这几天看的一直涉及到normalization, 是不是每次layer后均加一个BN呢?
注: BN, LN的目的均是为了层与层之间的输入数据分布来看, 稳定不变. 不要和某一层输出的向量能量Norm弄混, 是没关系的
借助: https://zhuanlan.zhihu.com/p/33173246 来快速了解下
谢谢作者~(表示感谢, 把人家的原文中的注, 放过来~)
1. 目的
既不用normalization存在的问题
1.1 独立同分布与白化
NN输入希望是iid, 所以数据预处理有两步, Juliuszh称之为白化(whitening)
我习惯拆分两类去理解
数据与数据之间的iid:
- 去除特征之间的相关性 —> 独立;猜测: 维度之间去相关性
- 使得所有特征具有相同的均值和方差 —> 同分布; 猜测: 假设数据不同人/语言下condition的x和影响到的数值服从norm, 所以