提出了一种新的自我监督表示学习方法 Self-EMD,用于目标检测。Self-EMD直接在 COCO 等未标记的非标志性图像数据集上进行训练,而不是像 ImageNet 这样常用的标志性目标图像数据集。Self-EMD将卷积特征图作为图像嵌入来 保留空间结构,并采用EMD来计算两个嵌入之间的相似性。受益于 更多未标记数据 的优点。
自监督学习流程的潜在先验 是同一图像的不同视图/裁剪对应于同一对象。因此 最大化他们的一致性 可以学习有用的特征。这个关键的先验实际上高度 依赖于预训练数据集的 潜在偏差:ImageNet 是一个以对象为中心的数据集,可确保潜在先验。
· ImageNet :由于图像被预先裁剪为以对象为中心,因此同一图像的不同裁剪来自同一对象。
· COCO: 每张图像都包含多个对象,不同的裁剪可能对应不同的对象。这种不一致的噪音可能会 损害自我监督学习方法的有效性。
从 实例级分类任务 中学习到的独特表示可能不适合对象检测。由于它应用全局池化层来生成向量嵌入,它可能会 破坏图像空间结构 并 丢失局部信息,而 检测器需要对空间定位敏感。
本文没有使用全局池化,而是 将卷积特征图作为图像嵌入,保留局部和空间信息。