计算机视觉最新进展概览(2021年5月30日到2021年6月5日)-CSDN博客

本文链接：https://blog.csdn.net/weixin_36670529/article/details/117603622

1、Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence

现有的旋转目标检测器大多继承自水平检测范式，因为后者已经发展成为一个成熟的领域。然而，由于当前回归损失设计的局限性，尤其是对于大纵横比的目标，这些检测器难以在高精度检测中突出表现。本文从水平检测是旋转物体检测的一种特殊情况出发，从旋转与水平检测的关系出发，将旋转回归损失的设计从归纳范式转变为演绎方法。在动态联合优化过程中，估计的参数会以自适应和协同的方式相互影响，因此如何调节旋转回归损失中的耦合参数是一个关键的挑战。具体来说，我们首先将旋转的包围框转换为二维高斯分布，然后计算高斯分布之间的Kullback-Leibler Divergence (KLD)作为回归损失。通过对各参数梯度的分析，我们发现KLD(及其导数)可以根据对象的特性动态调整参数梯度。它将根据长宽比调整角度参数的重要性(梯度权重)。这种机制对于高精度检测是至关重要的，因为对于大纵横比物体，轻微的角度误差会导致严重的精度下降。更重要的是，我们证明了KLD是尺度不变的。我们进一步证明了KLD损失可以退化为流行的损失用于水平检测。

2、Container: Context Aggregation Network

卷积神经网络(CNNs)在计算机视觉中无处不在，具有无数有效和高效的变化。最近，Transformers——最初是在自然语言处理中引入的——已经越来越多地应用于计算机视觉。早期的用户继续使用CNN的骨干，最新的网络是端到端无CNN的Transformer解决方案。最近一个令人惊讶的发现表明，一个简单的基于MLP的解决方案，没有任何传统的卷积或Transformer组件，可以产生有效的视觉表示。虽然CNN、Transformer和MLP-Mixers可以被视为完全不同的架构，但我们提供了一个统一的视图，表明它们实际上是在神经网络堆栈中聚合空间上下文的更通用方法的特殊情况。我们提出了CONTAINER(上下文聚合网络)，一个用于多头上下文聚合的通用构建块，它可以利用变形器的长期交互作用，同时仍然利用局部卷积操作的诱导偏差，导致更快的收敛速度，这经常在cnn中看到。我们的CONTAINER架构在ImageNet上使用22M参数实现了82.7%的Top-1精度，比DeiT-Small提高了2.8，并且可以在短短200个时代收敛到79.9%的Top-1精度。比起相比的基于变压器的方法不能很好地扩展到下游任务依赖较大的输入图像的分辨率,我们高效的网络,名叫CONTAINER-LIGHT,可以使用在目标检测和分割网络如DETR实例,RetinaNet和Mask-RCNN获得令人印象深刻的检测图38.9,43.8, 45.1和掩码mAP为41.3，与具有可比较的计算和参数大小的ResNet-50骨干相比，分别提供了6.6、7.3、6.9和6.6 pts的较大改进。与DINO框架下的DeiT相比，我们的方法在自监督学习方面也取得了很好的效果。

3、GMAIR : Unsupervised Object Detection Based on Spatial Attention and Gaussian Mixture

近年来，基于空间注意力的无监督目标检测研究取得了很好的成果。模型，如AIR和SPAIR，输出“什么”和“在哪里”的潜在变量，分别表示场景中物体的属性和位置。以往的研究大多集中在“where”定位性能上; 然而，我们声称获取“什么”对象属性对于表征学习也是必不可少的。本文提出了一种用于无监督目标检测的GMAIR框架。它在统一的深度生成模型中结合了空间注意力和高斯混合。 GMAIR可以定位场景中的目标，并在没有监督的情况下对其进行聚类。此外，我们分析了“什么”潜在变量和聚类过程。最后，我们在multinist和Fruit2D数据集上对该模型进行了评价，结果表明GMAIR在定位和聚类方面取得了较好的效果。

4、One Representation to Rule Them All: Identifying Out-of-Support Examples in Few-shot Learning with Generic Representations

在开发可以在小数据体系中运行的强大模型方面，“Few-Shot”领域取得了显著的进步。几乎所有这些方法都假定遇到的每个未标记的实例都属于一些已知的类，其中有实例。这对于现实世界的用例来说是有问题的，因为通常会发现“以上都不是”的例子。在本文中，我们描述了识别我们所称的“不支持”(OOS)示例的挑战。我们描述了这个问题是如何微妙地不同于分布外检测，并描述了一种新的方法，在原型网络框架内识别OOS示例使用一个固定点，我们称之为通用表示。我们表明，我们的方法优于其他现有的方法在文献和其他方法，我们提出在本文。最后，我们研究如何使用这样一个通用点影响模型的特征空间的几何。

5、E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual

大规模图像-文本对的视觉语言预处理(VLP)在跨模式下游任务中取得了巨大的成功。现有的大部分预处理训练方法主要采用两步训练过程，首先使用预处理后的目标检测器提取基于区域的视觉特征，然后将图像表示和文本嵌入连接起来作为Transformer的输入进行训练。然而，这些方法面临着使用特定目标检测器的任务特定视觉表示进行通用的交叉模态理解，以及两阶段流水线计算效率低的问题。在本文中，我们提出了第一个端到端视觉语言预训练模型，用于V+L理解和生成，即E2E-VLP，在这里我们建立了一个统一的Transformer框架，以共同学习视觉表示，以及图像和文本之间的语义对齐。我们将目标检测和图像字幕的任务纳入统一的Transformer编码器解码器架构的预处理训练，以提高视觉学习。大量的实验已经在成熟的视觉语言下游任务上进行，以证明这种新的VLP范式的有效性。