1、比赛trick
- 数据增强,测试阶段多次使用稍弱的增强然后取平均
- 使用多个模型预测,最后结构加权平均
- 训练算法和学习率
- 清理数据,在训练数据中有大量噪音,需要做数据清理
2、数据方面
- 有重复图片,可以手动去除
- 图片背景较多,而且树叶没有方向性
- 随机旋转,更大的裁剪
- 跨图片增强:
- Mixup :随机叠加两张图片
- CutMix:随机组合来自不同图片的块
3、模型方面
- 模型多为ResNet变种
- DenseNet,ResNeXt , ResNeSt,…
- EfficientNet
- 优化算法为Adam或者其变种,跟平滑,在优化算法或调参不是很好时,可以使用Adam
- 学习率,一般使用Cosine或者训练不动是往下调整学习率。【可以再自定义代码时可以当训练比较平时,下调学习率】
4、AutoGluon
- 15行代码,100分钟训练
代码学习地址 - 精度96%
- 可以定制化提升精度
- 下一版本搜索跟单的模型超参数
- AG目前关注工业界应用,非比赛
5、总结
- 提升精度思路:根据数据挑选增强,使用新模型、新优化算法,多模型融合,测试时使用增强
- 数据相对简单,排名有相对随机性
- 在工业界应用中:
- 少使用模型融合和测试时增强,计算代价过高
- 通常固定模型超参数,而将精力主要花在提升数据质量。
【思考🤔】半监督方式标注数据系统后面会成为主流