视频目标检测论文汇总（含代码地址）

最新推荐文章于 2024-06-25 14:49:31 发布

Forizon

最新推荐文章于 2024-06-25 14:49:31 发布

阅读量1.7k

点赞数 5

分类专栏：论文笔记文章标签：视频 vidoe detection

本文链接：https://blog.csdn.net/hesongzefairy/article/details/105226757

版权

论文笔记专栏收录该内容

12 篇文章 3 订阅

订阅专栏

论文标题： Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

论文下载地址：https://arxiv.org/abs/1903.10172

代码下载地址：https://github.com/vikrant7/pytorch-looking-fast-and-slow

论文简介：物体在快速运动时，当人眼所看到的影像消失后，人眼仍能继续保留其影像，约0.1-0.4秒左右的图像，这种现象被称为视觉暂留现象。人类在观看视频时，利用视觉暂留机制和记忆能力，可以快速处理视频流。借助于存储功能，CNN同样可以实现减少视频目标检测的计算量。视频帧具有较高的时序冗余。作者提出使用两个特征提取子网络：Slow network 和Fast network。Slow network负责提取视频帧的精确特征，速度较慢，Fast network负责快速提取视频帧的特征提取，准确率较差，两者交替处理视频帧图像。Fast network和Slow network特征经过ConvLSTM层融合并保存特征。检测器在当前帧特征和上下文特征融合基础上生成检测框。论文提取基于强化学习策略的特征提取调度机制和需要保存特征的更新机制。

论文贡献：1、提出基于存储引导的交替模型框架，使用两个特征提取网络分别提取不同帧特征，减少计算冗余。2、提出基于Q-learning学习自适应交替策略，取得速度和准确率的平衡。3、在手机设备实现迄今为止已知视频目标检测的最高速度。

论文指标：模型在Imagenet DET 和COCO训练，在Imagenet VID 2015测试结果最好mAP为63.9，最快速度72.3fps时mAP为59.3

论文标题：T-CNN: Tubelets with Convolutional Neural Networks for Object Detection from Videos

论文下载地址：http://arxiv.org/abs/1604.02532

代码下载地址：https://github.com/myfavouritekk/T-CNN

论文简介：在过去两年中，用于物体检测的最新性能得到了显着改善。除了引入强大的深度神经网络之外，还引入了新颖的对象检测框架，例如R-CNN 及其改进版本Fast R-CNN 和Faster R-CNN，在改进最新技术方面起着至关重要的作用。尽管它们在静止图像上有效，但这些框架并不是专门为视频中的对象检测而设计的。视频的时间和上下文信息未得到充分调查和利用。在这项工作中，作者提出了一个深度学习框架，该框架将视频中获得的细小管的时间和上下文信息融合在一起，当将现有的静止图像检测框架应用于视频时，可以显着提高其基线性能。它被称为T-CNN，即具有卷积神经网络的小管。拟议的框架在ImageNet大规模视觉识别挑战赛2015（ILSVRC 2015）中赢得了新引入的视频目标检测（VID）任务，并提供了数据。

论文贡献：本文的贡献有三。 1）首先提出了一个深度学习框架，扩展了流行的静态图像检测框架（R-CNN和Faster R-CNN），通过融合来自tubelet的时间和上下文信息来解决视频中的通用对象检测问题，称为T-CNN，即具有卷积神经网络的tubelet。 2）通过在相邻帧之间局部的传播检测结果，以及全面修改检测置信度和从跟踪算法生成的tubelet，时间信息被有效地纳入提出的检测框架。 3）根据视频剪辑中的所有检测结果，利用上下文信息来抑制低置信度类别的检测分数。该框架赢得具有提供的数据的VID任务，并在ILSVRC2015中实现了具有外部数据的第二名。

论文指标：

论文标题：Object Detection from Video Tubelets with Convolutional Neural Networks

论文下载地址：https://arxiv.org/abs/1604.04053

代码下载地址：https://github.com/myfavouritekk/vdetlib

论文简介：深度卷积神经网络（CNN）在各种视觉任务（例如图像分类，对象检测和语义分割）中均表现出令人印象深刻的性能。对于物体检测，特别是在静止图像中的物体检测，由于强大的深度网络（例如GoogleNet）和检测框架（例如具有CNN功能的区域（RCNN）），去年的性能有了显着提高。最近推出的有关从视频进行对象检测（VID）的ImageNet [6]任务将对象检测任务带入了视频域，在该域中，需要在每个帧的对象位置标注边框。在这项工作中，作者介绍了一个基于静止图像对象检测和常规对象跟踪的VID任务的完整框架。他们在VID任务中的关系和贡献得到了彻底的研究和评估。另外，提出了一种时间卷积网络以合并时间信息以规范化检测结果并显示其对任务的有效性。

论文贡献：在这项工作中，作者提出了一个基于深度CNN检测和跟踪的多阶段框架，用于视频中的对象检测。该框架由两个主要模块组成：1）结合了对象检测和对象跟踪功能的试管提议模块； 2）细管分类和重新评分模块，执行空间最大合并以实现鲁棒的框评分和时间卷积以合并时间一致性。对象检测和跟踪在作者的框架中紧密合作。一方面，物体检测产生高可信度的锚点以启动跟踪并通过空间最大池化减少跟踪失败。另一方面，跟踪还会生成用于对象检测的新建议，并且跟踪的框充当锚点以聚合现有检测。本文的贡献有三个方面 1）提出了一个完整的多阶段框架，用于视频中的目标检测。 2）详细研究了静止图像目标检测与目标跟踪之间的关系，以及它们对视频目标检测的影响。 3）提出了一种特殊的时间卷积神经网络，将时间信息纳入视频的目标检测。

论文指标：本文提出的方法最好的表现为AP47.5%。

论文标题：Optimizing Video Object Detection via a Scale-Time Lattice

论文下载地址：https://arxiv.org/abs/1804.05472

代码下载地址： https://github.com/hellock/scale-time-lattice

论文简介：本文主要研究如何更好地优化和平衡视频中物体检测的准确率和检测速度。物体检测器为了达到高准确率，往往需要使用高性能的卷积神经网络来提取图像特征，导致检测速度难以满足实时性的需求。解决这个问题的关键在于寻求一种有效的方式，在准确率和检测速度之间作出平衡。为了寻找一个良好的平衡点，之前的研究工作通常集中在如何优化网络结构上。本文提出一种新的方法，基于尺度-时间网格（Scale-Time Lattice，简记为ST-Lattice）来重新分配计算资源。

论文贡献：尺度时间网络：本文将尺度-时间网格表示成一个有向无环图。图中的每一个节点都表示某个图像尺度和时间点的中间结果，即一系列检测框。这些节点以类似网格的方式关联起来：从左到右遵循时间顺序，从上到下图像尺度（分辨率）逐渐提高。图中的一条边代表一个特定的操作，以一个节点的结果作为输入，输出另一个节点的检测结果。作者在图中定义两种操作，时间传播（temporal propagation）和空间修正（spatial refinement）。它们分别对应图中横向边和纵向边。时间传播是在同一图像尺度下，在相邻的帧之间进行检测框的传播。而空间修正是在同一帧下，对检测框的位置进行修正，获得更高图像尺度下的检测框结果。在尺度-时间网格中，检测结果会通过上述操作从一个节点传播到另一个节点，最终到达最底端的所有节点，也即在最大的图像尺度上每帧的检测结果。传播和修正单元：以相邻两个关键帧的结果作为输入，使用时间传播网络将结果传播到中间帧上，然后使用空间修正网络将结果进行空间位置上的修正。时间传播网络主要用于考虑视频中的运动信息，来预测两帧之间较大的位移。而空间修正模块则通过回归检测框位置的偏差，来修正检测框本来的误差和传播带来的误差。这两种操作不断迭代进行来获得最终的检测结果。关键帧选择：关键帧的选取对最终的检测速度和准确率有着重要的影响。最简单直接的方法就是在时间轴上均匀地选取关键帧，之前的绝大多数方法也都采取了该策略。但本文考虑到帧与帧之间的信息冗余度不同，并不是每一帧都有同等重要的地位，所以需要一种非均匀的采样策略，在物体运动较快、传播难度大的时间段内多选取关键帧，反之则少选取关键帧。时间管道重打分：由于时间上的检测框传播，获得的检测结果并不是独立的逐帧结果，而是自然串联成一个个的物体时间管道（Object Tube）的，那么可以对这些物体时间管道来进行重新分类。本文训练了一个 R-CNN 作为分类器，对于每个物体时间管道，均匀选取其中 K 帧作为输入，以它们的平均值作为新的分类结果，根据新的分类结果来调整物体时间管道中每个框的分数。

论文指标：本文提出的方法在ImageNet VID 数据集上达到了 79.6 mAP（20fps）和 79.0 mAP（62 fps）的准确率和速度。

Forizon

关注

5
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
视频目标检测论文汇总（含代码地址）

论文标题：Looking Fast and Slow: Memory-Guided Mobile Video Object Detection论文下载地址：https://arxiv.org/abs/1903.10172代码下载地址：https://github.com/vikrant7/pytorch-looking-fast-and-slow论文简介：物体在快速运动时，当人眼所看...
复制链接

扫一扫

专栏目录