在COCO检测上高达54.3% AP!在PASCAL分割上,高达90.5% mIOU!(超越DeepLabV3+,目前排名第一)
Rethinking Pre-training and Self-training
作者团队:谷歌大脑(刘寒骁和Quoc V. Le等)
论文: https:// arxiv.org/abs/2006.0688 2
预训练是计算机视觉中的主要范式。例如,受监督的ImageNet预训练通常用于初始化目标检测和分割模型的主干。但是,何恺明等人展示了一个令人惊讶的结果,即ImageNet预训练对COCO目标检测的影响有限。在这里,我们研究自训练(self-training),这是在相同setting上利用附加数据并将其与ImageNet预训练进行对比的另一种方法。我们的研究通过以下三点发现揭示了自训练的一般性和灵活性:
1)更强大的数据增广和更多标记数据进一步降低了预训练的价值;
2)与预训练不同,使用更强大的自训练总是有帮助的在低数据和高数据两种情况下进行数据增广;
3)在预训练有帮助的情况下,自训练会在预训练后得到改善。
例如,在COCO目标检测数据集上,当我们使用五分之一的标记数据时,预训练会受益,而在使用所有标记的数据时,准确性会受到损害。另一方面,自训练在所有数据集大小上均显示从+ 1.3AP到+ 3.4AP的积极改进。换句话说,自训练可以在与预训练不起作用的相同设置上完全兼容(使用ImageNet帮助COCO)。
本文核心方法:
实验结果
在PASCAL分割数据集上,该数据集比COCO小得多,尽管预训练确实有很大帮助,但自训练可改善预训练模型。
在COCO目标检测方面,我们达到了54.3AP,比最强的SpineNet模型提高了+ 1.5AP。在PASCAL分割上,我们达到了90.5 mIOU,比DeepLabv3 +之前的最新结果提高了1.5%mIOU。
论文下载
链接: https:// pan.baidu.com/s/1QBfGjU IQ0QQkCWh21865pg
提取码:0auz
强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。
推荐阅读
NeurIPS 2020 | aLRPLoss:统一目标检测中的分类和定位的平衡损失函数
ECCV 2020 | MIRNet:学习丰富的特征以进行真实图像修复和增强
CCE:具有互补交叉熵的不平衡图像分类
谷歌地标检索2020 Kaggle 第一名解决方案
ECCV AIM 2020 真实图像超分辨率挑战赛3项冠军解决方案
LVIS 实例分割挑战赛2020的第一名解决方案:好的Box不能保证好的Mask
ETH Zurich提出DPIR:具有Denoiser先验的即插即用图像恢复
IR R-CNN:小目标检测的内在关系推理
综述 | 人脸图像质量评估:全面调研(2004-2020)
MAFFSRN:具有多注意力层的超轻量级图像超分辨率
冠军解决方案 | RMGL:用于行人重识别的感受野多粒度表示
VarifocalNet:IoU-aware 密集目标检测器(已开源)
ECCV 2020 | NAS-DIP:通过NAS实现DIP(去噪/去雾/超分辨率/修复等)
TIP 2020 | PNEN:金字塔Non-Local增强型网络
综述 | 小样本学习:全面调研(Few-shot)
MiCo:用于半监督域自适应的Mixup联合训练
使用深度神经网络从Noisy Labels中学习:全面调研
PyTorch3D:面向3D计算机视觉的PyTorch工具箱
剪枝filter?还是剪枝layer?这是个问题
牛津大学VGG组提出:自监督实例自适应的单目深度估计
ECCV 2020 | WeightNet:重新探索Weight网络的设计空间
Mask TextSpotter v3:用于场景文字检测和识别的分割Proposal网络
ECCV 2020 | URIE:用于视觉识别的通用图像增强
ECCV 2020 | 魔鬼在细节中:车辆重识别的自监督注意力(SAVER)
ECCV 2020 | 53.5 AP!PAA:用于目标检测的IoU预测的概率Anchor分配
ECCV 2020 | 南京理工提出FPT:特征金字塔Transformer
ECCV 2020 | 长尾数据集中多标签分类的分布平衡损失
清华大学提出ISDA:使用语义数据增广来正则化深度网络
ECCV 2020 | BMask R-CNN:边界保持的Mask R-CNN
ECCV 2020 | 即插即用!PSConv:将特征金字塔压缩到紧凑的多尺度卷积层中
ECCV 2020 | STTN:用于视频修复的时空联合Transformer
ECCV 2020 | LiteFlowNet3:实现更准确的光流估计