VID-视频目标检测

最新推荐文章于 2024-08-12 09:02:35 发布

榕城叶少

最新推荐文章于 2024-08-12 09:02:35 发布

阅读量1.7k

点赞数 1

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_40469867/article/details/108954282

版权

视频目标检测面临运动模糊、遮挡等挑战，尽管开源代码有限，但近年来顶会论文逐渐增多，如MEGA、SSVD等。这些方法通过利用时空信息增强单帧学习。然而，由于方法核心思路单一，出彩困难。

摘要由CSDN通过智能技术生成

VID-视频目标检测

问题和背景

前瞻
视频目标检测，顾名思义，属于目标检测的一个细分领域，虽然仅仅多了视频两个字，而且视频和图片还相似度较高，但是对比目标检测（下文简称OD）的火爆，视频目标检测（下文检测VID）研究的热度相对小很多，不过在2018-2019年，顶会文章逐渐变多，总的算下来，大约就30多篇，因此对于想在这个领域入门并且做一点成果的人，还是非常友好的。

核心问题
这个领域的核心问题主要在于，对于视频中的单独一帧来说，可能会遭遇到运动模糊（motion blur），怪异的姿势（rare poses），遮挡（occlusion）等问题，当然这可能是由相机失焦（camera defocus）或者视频本身质量引起的，这是任务本身的问题。
另一方面，我认为这个领域起步比较晚，导致开源代码较少，细数之下，能用的仅仅有DFF、FGFA、SELSA、MEGA这几份，其中选择性也很小，前三者算一个派系，基于MXNET，MEGA是CVPR2020刚刚开源的，集成了DFF、FGFA、RDN、MEGA四种方法，基于pytorch的，所以对比OD和目标跟踪几十份开源代码，实在是有些尴尬。
最后，由于解决的问题十分单一，且方法的核心思路也比较单一，就是利用序列中的时空信息（spatial-temporal information across frames in a video）来加强单帧的学习，导致使用的方法其实有些内卷。

总的来说好入门，但是难出彩啊！