卷积
- 卷积核(filter)
- strides
- padding:利用好边缘部分的特征,避免图片过小
(f-n)/s+1
池化
- 最大池化(常用)
- 平均池化
2*2 减半最为常用
防止过拟合
- L1正则化:与参数的绝对值正比
- L2正则化:正比于参数的平方
- 数据增强
- 画出训练集和验证集的loss曲线,提前终止迭代
- dropout:以1-keep_prop的概率决定是否消除某个节点,简化网络
- BatchNorm:
通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,其实就是把越来越偏的分布强制拉回比较标准的分布,这样使得激活输入值落在非线性函数对输入比较敏感的区域,这样输入的小变化就会导致损失函数较大的变化,意思是这样让梯度变大,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度。
激活函数
- sigmoid
- tanh
- ReLU
- LeakyReLU
高偏差与高方差
训练集的错误率极低,而验证集的错误率较高,则认为发生了过拟合,即高方差
训练集的错误率较高,验证集的错误率也较高,则认为发生了欠拟合,即高偏差