计算机视觉最新进展概览2021年9月5日到2021年9月13日

1、ACP++: Action Co-occurrence Priors for Human-Object Interaction Detection

在人与物交互(HOI)检测任务中,一个常见的问题是大量的HOI类只有很少的标记样本,导致训练集呈长尾分布。 缺乏正面标签会导致这些类别的分类精度较低。 为了解决这一问题,我们观察到人与物之间存在天然的相关性和反相关性。 在本文中,我们将相关性建模为动作共生矩阵,并提出了学习这些先验的技术,并利用它们进行更有效的训练,特别是在罕见的课程上。 实验证明了我们的方法的有效性,在两个领先的HOI检测基准数据集(HICO-Det和V-COCO)上,我们的方法的性能比最先进的方法不断提高。  

2、Mask is All You Need: Rethinking Mask R-CNN for Dense and Arbitrary-Shaped Scene Text Detection

由于在目标检测和实例分割方面取得了巨大的成功,Mask R-CNN受到了广泛的关注,并被广泛用于任意形状的场景文本检测和识别。 但是,还有两个问题有待解决。 第一种是密集文本情况,这种情况容易被忽略,但很实用。 在一个提议中可能存在多个实例,这使得掩码头很难区分不同的实例,从而降低了性能。 在这项工作中,我们认为性能下降是由于学习混淆问题在掩模头。 我们建议在掩码头中使用MLP解码器来代替“deconv-conv”解码器,这可以缓解这个问题并显著提高鲁棒性。 我们提出了实例感知的掩模学习,即掩模头学习预测整个实例的形状,而不是将每个像素分类为文本或非文本。 通过实例感知掩码学习,掩码分支可以学习分离的和紧凑的掩码。 第二,由于规模和宽高比的巨大差异,RPN需要复杂的锚定设置,这使得它很难在不同的数据集中进行维护和传输。 为了解决这个问题,我们提出了一种自适应标签分配方法,在这种方法中,所有的实例,特别是那些具有极端高宽比的实例,都保证与足够的锚相关联。 配备了这些组件,提出的名为MAYOR的方法在DAST1500、MSRA-TD500、ICDAR2015、CTW1500和Total-Text五个基准上实现了最先进的性能。  

3、Robustness and Generalization via Generative Adversarial Training

虽然深度神经网络在各种计算机视觉任务中取得了显著的成功,但它们往往不能推广到新的领域和输入图像的细微变化。 为了提高对这些变化的鲁棒性,提出了几种防御方法。 然而,目前的防御只能抵御训练中使用的特定攻击,而且模型经常在其他输入变量面前保持脆弱。 此外,这些方法往往会降低模型在干净图像上的性能,而且不能推广到域外样本。 在本文中,我们提出生成式对抗训练,一种同时提高模型对测试集和域外样本的泛化能力以及对看不见的对抗攻击的鲁棒性的方法。 我们没有改变图像的一个低级预定义方面,而是使用具有分离的潜在空间的生成模型生成一个低级、中级和高级变化的光谱。 通过这些例子的对抗性训练,通过观察训练期间各种输入变化,使模型能够承受广泛的攻击。 我们表明,我们的方法不仅提高了模型在干净图像和域外样本上的性能,而且使它对不可预见的攻击具有鲁棒性,并优于之前的工作。 我们通过在分类、分割和目标检测等任务上展示结果来验证我们方法的有效性。  

4、Class Semantics-based Attention for Action Detection

动作定位网络通常被构造为特征编码器子网络和定位子网络,其中特征编码器学习将输入视频转换为对定位子网络有用的特征,以生成可靠的动作建议。 虽然某些编码特性可能对生成动作建议更有用,但预先动作定位方法不包括任何使定位子网络关注更重要特性的注意机制。 在本文中,我们提出一个新颖的注意机制,基于语义类的关注(CSA),学习时间分布的action类出现在输入视频的语义发现编码的重要性评分功能,用于提供关注更有用的编码功能。 我们在两个流行的动作检测数据集上证明,结合我们的新注意机制,在竞争动作检测模型上提供了相当大的性能提升(例如,在THUMOS-14数据集上获得47.5%的mAP,比BMN动作检测基线提高了约6.2%)。 以及ActivityNet 1.3数据集上最新的36.25% mAP。 此外,包括BMN-CSA在内的CSA本地化模型系列是2021年ActivityNet行动本地化挑战的第二名提交的部分。 在动作检测任务中,我们的注意机制优于先前的自我注意模块,如挤压和激励。 我们还观察到,我们的注意力机制是这种自我注意模块的补充,当两者一起使用时,可以看到性能的改善。  

5、Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object Detection

我们提出了一个灵活和高性能的框架,称为金字塔R-CNN,用于两阶段的三维目标检测从点云。 目前的方法在第二阶段一般依赖感兴趣的点或体素进行特征提取,但不能有效处理感兴趣点的稀疏性和非均匀分布,这可能导致对远处目标的检测失败。 为了解决这一问题,我们提出了一种新的第二阶段模块,即金字塔感兴趣点头,自适应地学习兴趣点的特征。 金字塔RoI头由三个关键部件组成。 首先,我们提出了RoI网格金字塔,它通过以金字塔的方式广泛收集每个RoI的兴趣点来缓解稀疏性问题。 其次,我们提出了RoI-grid Attention,通过将传统的基于注意和基于图的点算子整合到一个统一的公式中,可以从稀疏点编码出更丰富的信息。 第三,提出了密度感知半径预测(DARP)模块,该模块通过动态调整聚焦范围来适应不同的点密度水平。 结合这三种成分,我们的金字塔RoI头对稀疏和不平衡的情况具有鲁棒性,并可以应用于各种3D骨干,不断提高检测性能。 大量的实验表明,在KITTI数据集和Waymo Open数据集上,Pyramid R-CNN的性能都大大超过了最先进的3D检测模型。  

6、Voxel Transformer for 3D Object Detection

我们提出了Voxel Transformer (VoTr),一种新的、有效的基于体素的Transformer主干,用于从点云中检测三维物体。 摘要基于体素的三维探测器中,传统的三维卷积主干由于接收域有限,无法有效地捕获大的背景信息,而背景信息对目标识别和定位至关重要。 在本文中,我们通过引入一个基于Transformer的架构来解决这个问题,该架构通过自注意实现体素之间的长期关系。 考虑到非空体素自然稀少但数量众多的事实,直接将标准Transformer应用于体素并非易事。 为此,我们提出了稀疏体素模块和子流形体素模块,它们可以有效地对空体素和非空体素位置进行操作。 为了进一步扩大注意范围,同时保持与卷积注意相当的计算开销,我们在这两个模块中提出了两种多头注意的注意机制:局部注意(Local attention)和扩展注意(extended attention),并进一步提出了快速体素查询(Fast Voxel Query)来加速多头注意的查询过程。 VoTr包含一系列稀疏和子流形体素模块,可用于大多数基于体素的检测器。 我们提出的VoTr在保持KITTI数据集和Waymo Open数据集计算效率的同时,在卷积基线上显示了一致的改进。 

QQ:战、血舞皇朝、2125364717

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wanderer001

ROIAlign原理

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值