数据:
1、数据集梳理:(1)寻找数据中的不平衡和偏差;(2)搜索/过滤/排序,标签的类型、注释的大小、注释的数量等的分布和沿着任何轴的异常值可视化分析;
2、刚开始训练可以不上复杂的图像增强;
模型架构:
1、增大、缩小网络深度、宽度、尺寸和cardinality;
2、初始化应保证:(1)激活的平均值应为零;(2)激活的方差应该在每一层保持不变。可选择Xavier+tanh或He+ReLu;
3、Batch数低于8时不使用BN,BN加倍、lr加倍;
4、辅助loss;
5、ResNet架构;
6、深度可分离卷积;
训练策略:
1、要进行gradient check,确保梯度始终进行反向传播;
2、刚开始训练可以不要用weight decay、momentum、衰减lr等策略,先过拟合看一下效果;
3、模型集成;
4、超长期的训练试试;