2019 ICCV 目标检测论文简述整理

最新推荐文章于 2024-07-24 16:48:40 发布

coder_zrx

最新推荐文章于 2024-07-24 16:48:40 发布

阅读量2.1k

点赞数 2

分类专栏：目标检测计算机视觉文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_37705280/article/details/105355313

版权

本文汇总了2019年国际计算机视觉大会(ICCV)上的目标检测研究亮点，涵盖了创新的检测算法、技术趋势和关键贡献。通过对这些论文的简述，深入理解当前目标检测领域的前沿进展。

摘要由CSDN通过智能技术生成

2019 ICCV （43篇）
题目	发表单位	针对问题	创新点	性能
ThunderNet: Towards Real-time Generic Object Detection （实现实时通用对象检测）	旷视	改善目标检测器的实时性	提出了一个轻量级的二阶段检测器ThunderNet；提出了一种用于对象检测的轻量级骨干；在检测部分，采用了非常高效的RPN和检测头设计；为了生成更具区分性的特征表示，设计了两个有效的架构模块：上下文增强模块和空间注意模块；最后，研究了输入分辨率，主干和检测头之间的平衡。	与轻量级的一阶段检测器相比，ThunderNet仅以PASCAL VOC和COCO基准的计算成本的40％即可实现卓越的性能。在基于ARM的设备上以24.1 fps的速度运行。
Cap2Det: Learning to Amplify Weak Caption Supervision for Object Detection		数据标记问题	建立了一个对象检测器，使图像与伴随的标题（句子）配对。该模型将人类书写的自由形式文本和视觉对象连接起来，并在图像中的对象上生成精确的边界框。
Towards Adversarially Robust Object Detection	百度	致力于提高目标检测的鲁棒性	论文首先从模型稳健性的角度重新审视和系统分析了目标检测器和许多最近发展起来的攻击。后提出了多任务学习视角下的目标检测方法，并确定了任务损失的不对称作用。然后进一步提出了一种对抗性训练方法，可以利用多个攻击源来提高检测模型的鲁棒性。
Few-shot Object Detection via Feature Reweighting （基于特征重加权的少镜头目标检测）	伯克利	针对CNN框架需要的大量数据问题提出改善方法	开发了一个few-shot目标检测器，可以学习如何从少数注释示例中检测新的目标。提出的模型利用了完全标记的基类，并使用元特征学习器和在一阶段检测架构中的重加权模块快速适应新的类。特征学习器利用具有足够样本的基类训练数据，提取出可概括的元特征来检测新的对象类。重加权模块将新类中的一些支持示例转换为全局向量，该全局向量指示元特征对于检测相应对象的重要性或相关性。这两个模块和一个检测预测模块是进行端到端训练的，基于一个幕式（episodic）的少量镜头学习方案和一个精心设计的损失函数
Optimizing the F-measure for Threshold-free Salient Object Detection	约翰·霍普金斯大学		提出了一种新的loss函数FLoss。与传统的交叉熵损失（在饱和区的梯度明显减小）相比，即使在激活接近目标时，它也具有相当大的梯度。因此，FLoss可以持续地使网络产生极化激活。对几个流行数据集的综合基准表明，FLoss的表现优于最新技术。
Depth-induced Multi-scale Recurrent Attention Network for Saliency Detection （显著性检测）	大连理工	显著性检测	提出了一种新的深度诱导多尺度递归注意网络，用于显著性检测。贡献包括：设计了一个有效的深度细化块，利用残差连接从RGB和深度流中充分提取和融合多级成对互补线索。其次，创新性地将具有丰富空间信息的深度线索与多尺度上下文特征相结合，实现显著目标的精确定位。我们在人脑内部生成机制的启发下，设计了一个新的重复注意模块，提高了模型的性能。该模块通过综合学习融合特征的内部语义关系，利用面向记忆的场景理解，逐步优化局部细节，生成更准确的显著性结果。此外，我们还创建了一个包含更复杂场景的大规模RGB-D数据集，这有助于全面评估显著性模型。
Towards High-Resolution Salient Object Detection	大连理工	在显著目标检测方面，针对训练深层神经网络直接处理超高分辨率图像	提出了一种高分辨率显著性检测方法，并给出了一个新的数据集：高分辨率显著性目标检测（HRSOD）。提出了一种新的方法，结合全局语义信息和局部高分辨率细节，以解决这一挑战性的任务。更具体地说，我们的方法由全局语义网络（GSN）、局部细化网络（LRN）和全局局部融合网络（GLFN）组成。其中GSN基于下采样图像提取全局语义信息。在GSN结果的指导下，LRN将重点放在局部区域，并逐步产生高分辨率的预测结果。为了增强空间一致性和提高性能，进一步提出了GLFN。	该方法优于现有的最先进的方法在高分辨率显著性数据集的大幅度，并取得了相当或甚至更好的性能比他们广泛使用的显著性基准。
Temporally-Aggregating Spatial Encoder-Decoder for Video Saliency Detection	密歇根	视频中的显著目标检测	TASED网是一种用于视频显著性检测的三维全卷积网络结构。它由两个组成部分组成：首先，编码器网络从多个连续帧的输入片段中提取低分辨率的时空特征，然后，下面的预测网络在聚集所有时间信息的同时对编码的特征进行空间解码。结果，从多个帧的输入片段生成单个预测映射。通过将TASED网以滑动窗口的方式应用于视频，可以预测帧显著性映射。该方法假设任何帧的显著图都可以通过考虑有限的过去帧来预测。我们在视频显著性检测方面的大量实验结果验证了这一假设，并证明了我们采用时间聚集方法的完全卷积模型是有效的。
SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects	中科院	旨在解决小的、旋转的、混乱的物体检测问题	设计了一种采样融合网络，该融合网络将多层特征与有效的锚点采样融合在一起，以提高对小物体的灵敏度。同时，通过抑制噪声并突出物体特征，共同探索了监督像素注意力网络和通道注意力网络，用于小而杂乱的物体检测。为了更准确地估算旋转角度，将IoU常数因子添加到平滑L1损耗中，以解决旋转边界框的边界问题。
Relation Distillation Networks for Video Object Detection(用于视频对象检测