计算机视觉最新进展概览(2021年5月23日到2021年5月29日)

Wanderer001

已于 2022-02-27 13:21:10 修改

阅读量669

点赞数

分类专栏：计算机视觉文章标签：计算机视觉人工智能深度学习

于 2022-02-26 10:37:38 首次发布

本文链接：https://blog.csdn.net/weixin_36670529/article/details/117381780

版权

计算机视觉专栏收录该内容

219 篇文章 88 订阅

订阅专栏

本文综述了弱监督目标检测(WSOD)和定位(WSOL)的最新进展，探讨了深度学习在此领域的应用，包括挑战、技术与训练技巧。文章介绍了常用的数据集和评估指标，并展望了未来发展方向。此外，还提到了针对自动驾驶的多模态行人检测方法，以及在视频中一致目标检测的问题和解决方案。最后，介绍了一个专注于夜间车辆检测的开源数据集，研究了通过光反射识别夜间车辆的可能性。

摘要由CSDN通过智能技术生成

1、Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

弱监督目标检测(WSOD)和定位(WSOL)，即使用图像级标签检测图像中带有边界框的多个和单个实例，是CV社区中长期存在的具有挑战性的任务。随着深度神经网络在目标检测方面的成功，WSOD和WSOL都受到了前所未有的关注。在深度学习时代，已经提出了数百种WSOD和WSOL方法和许多技术。为此，在本文中，我们认为WSOL是WSOD的一个子任务，并提供了WSOD最近成就的全面调查。具体来说，我们首先描述了WSOD的形成和背景，包括背景、挑战、基本框架。同时，我们总结和分析所有先进的技术和训练技巧，以提高检测性能。然后，介绍了WSOD广泛使用的数据集和评价指标。最后，我们讨论了WSOD未来的发展方向。我们相信，这些总结将有助于为今后对WSOD和WSOL的研究铺平道路。

2、Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For Autonomous Driving

行人检测是自动驾驶系统中最关键的模块。虽然相机通常用于此目的，但在夜间低光照驾驶场景下，其质量会严重下降。另一方面，热像仪图像的质量在类似条件下不受影响。提出了一种基于RGB和热图像的端到端多模态行人检测融合模型。其新颖的时空上下文深层网络架构能够有效地利用多模态输入。它由两个不同的可变形ResNeXt-50编码器组成，用于从两种模式中提取特征。这两个编码特征的融合发生在多模态特征嵌入模块(MuFEm)中，该模块由几组一对图形注意网络和一个特征融合单元组成。最后一个特征融合单元的输出随后被传递给两个中心参考框架进行空间细化。特征的进一步增强是通过在四个不同方向上遍历的四个神经网络的帮助下应用通道方向的注意力和上下文信息的提取来实现的。最后，单级解码器使用这些特征图来生成每个行人的包围盒和得分图。我们在三个可公开获得的多模态行人检测基准数据集上，即KAIST、CVC-14和UTokyo上，对所提出的框架进行了广泛的实验。他们每个人的结果都提高了各自最先进的表现。

3、Issues in Object Detection in Videos using Common Single-Image CNNs

计算机视觉的一个不断发展的分支是目标检测。目标检测用于许多应用，如工业过程、医学成像分析和自动车辆。检测视频中物体的能力至关重要。目标检测系统是在大型图像数据集上训练的。对于自主车辆等应用，目标检测系统能否通过视频中的多个帧识别目标至关重要。将这些系统应用于视频有许多问题。阴影或亮度变化会导致系统错误地逐帧识别对象，并导致意外的系统响应。有许多神经网络已经被用于对象检测，如果有一种方法可以在帧之间连接对象，那么这些问题就可以消除。为了让这些神经网络更好地识别视频中的对象，需要对它们进行重新训练。数据集必须使用代表连续视频帧的图像创建，并且具有匹配的地面真实层。提出了一种生成这些数据集的方法。ground truth层仅包含移动目标。为了生成该层，使用FlowNet2-Pytorch使用新颖的幅度方法来创建流掩模。此外，分割掩码将使用掩码R-CNN或Refinenet等网络生成。这些分割遮罩将包含在一个帧中检测到的所有对象。通过将该分割掩码与流掩码基本事实层进行比较，生成损失函数。这种损失函数可以用来训练神经网络，使其更好地在视频上做出一致的预测。该系统在多个视频样本上进行了测试，每个帧都会产生一个损失，证明了幅度法在未来工作中用于训练目标检测神经网络的能力。

4、YOLO5Face: Why Reinventing a Face Detector

近年来，卷积神经网络在人脸检测方面取得了巨大的进展。虽然许多人脸检测器使用指定用于人脸检测的设计，但我们将人脸检测视为一般的目标检测任务。我们实现了一个基于YOLOv5目标检测器的人脸检测器，称之为YOLO5Face。我们添加了一个五点地标回归头，并使用机翼损失函数。我们设计不同型号的检测器，从实现最佳性能的大型检测器到用于嵌入式或移动设备实时检测的超小型检测器。在WiderFace数据集上的实验结果表明，我们的人脸检测器可以在几乎所有的Easy、Medium和Hard子集上实现最先进的性能，超过了更复杂的指定人脸检测器。

5、A Dataset for Provident Vehicle Detection at Night

在当前的目标检测中，算法要求目标直接可见才能被检测到。然而，作为人类，我们本能地使用由各自物体引起的视觉线索，已经对其外观做出了假设。在开车的情况下，这些线索白天可能是阴影，晚上通常是光反射。在这篇论文中，我们研究了如何将这种直观的人类行为映射到计算机视觉算法中，从而仅通过汽车前灯引起的光反射来检测夜间驶来的车辆。为此，我们提出了一个广泛的开源数据集，包含59746张标注的灰度图像，这些图像来自农村环境的346个不同场景的夜间。在这些图像中，所有迎面而来的车辆，它们对应的光物体(例如，前大灯)，以及它们各自的光反射(例如，光反射到护栏上)都被标记了。在此背景下，我们讨论了数据集的特征和客观描述视觉线索(如光反射)的挑战。我们为完成任务的不同方式提供了不同的度量标准，并使用最先进的自定义对象检测模型作为第一个基准测试报告我们取得的结果。因此，我们希望引起人们对计算机视觉研究中一个迄今被忽视的新领域的关注，鼓励更多的研究人员来解决这个问题，从而进一步缩小人类表现和计算机视觉系统之间的差距。

Wanderer001

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
计算机视觉最新进展概览(2021年5月23日到2021年5月29日)

1、Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey
复制链接

扫一扫