优化
都9102年了,别再用Adam + L2 regularization了
AdamW and Super-convergence is now the fastest way to train neural nets
卷积
im2col的原理和实现
各种卷积动图
空洞卷积问题:gridding、long-range
CNN中的位置和尺度问题
分类需要低频info,定位需要高频info
分类需要平移不变性(invariance),定位需要平移相等性(equivalence)
downsample破坏平移相等性和不变性,对于平移相等性的影响更大。
微小的平移和尺度变化可能严重影响结果(我们不能简单地把系统中的平移不变性寄希望于卷积和二次采样,输入信号的平移不意味着变换系数的简单平移,除非这个平移是每个二次采样因子的倍数。)
缓解:抗锯齿bluring、数据增强、减少降采样
softmax
从最优化的角度看待Softmax损失函数
Softmax vs. Softmax-Loss: Numerical Stability
softmax上溢和下溢问题
Normalization
模型加速
训练trick
a、 fine-tune时的学习率warm-up的调整
b、 L2正则化
c、 Adam优化器换成SGD,lookhead优化器
d、 初始化预训练权重
e、 学习率的调整,根据BACTH SIZE来调整
f、 显存过小时候,使用平均损失来求梯度,防止单次样本太小震荡剧烈。
g、 Batch_size大小的选择,不宜太大也不能太小,最好是2的指数次方
h、 图片的预处理
出现nan值的处理
A、 重新初始化
B、 梯度截断
C、 利用激活函数限幅,如:y = min(max(0,x),6)(relu6)
D、 重新清理数据集
E、 查看是否分母出现0
F、 减小学习率