前置知识
- 深度学习3步骤
- 优化方法梯度下降会用到的:步长大小、方向;学习率
- 分类、回归、结构化学习
- …
批量(Batch)和归一化(Normalization)
批量、归一化目的是为了让数据处理更方便,比如衍射该概念:数据增强、数据降维
核心公式:平均值、标准差、方差、平方和、、协方差、协变量、最大似然估计
1.
可以给不同的维度,同样的数 值范围的话,那我们可能就可以制造比较好的误差表面,让训练变得比较容易一点其实有很 多不同的方法,这些不同的方法往往就合起来统称为特征归一化(feature normalization)。
之前的 ̃ x1, ̃ x2 ̃ x3 是独立分开处理的,但是在做特征归一化以后,这三个样本 变得彼此关联了。所以有做特征归一化的时候,可以把整个过程当做是网络的一部分
因为实际实现的时候,只对一个批量里面的数据做归一化,所以技巧称为批量归一 化。一定要有一个够大的批量,才算得出 μ, σ。所以批量归一化适用于批量大小比较大的