基础概念
模型优化
-
BN
y = x − E [ x ] V a r [ x ] + ϵ ∗ γ + β y=\frac{x-E[x]}{\sqrt{Var[x]+\epsilon }}\ast \gamma +\beta y=Var[x]+ϵx−E[x]∗γ+β
即减均值除方差(其实是标准差),然后乘以一个权重加上一个系数。BN效果好是因为BN的存在会引入mini-batch内其他样本的信息,就会导致预测一个独立样本时,其他样本信息相当于正则项,使得loss曲面变得更加平滑,更容易找到最优解。相当于一次独立样本预测可以看多个样本,学到的特征泛化性更强,更加general。
常见的网络大都是Conv+BN
结构,可以融合为Conv
加速推理,详见。 -
Pooling经常会损失一些低级特征。
-
如果想成批处理图像,同一批内图像必须有确定的宽和高,因为涉及到张量的拼接。