静态背景下运动目标检测 matlab_干货 | 视频显著性目标检测（文末附有完整源码）...-CSDN博客

本文介绍了一种深度学习模型用于视频显著性检测，解决训练数据不足的问题。通过数据增强技术，模拟真实视频序列，生成带有注解的训练数据。模型包含静态和动态显著性模块，捕捉时空显著性信息，无需耗时的光流计算。实验表明，新模型在视频显著性检测中表现出高准确性与效率。

摘要由CSDN通过智能技术生成

显著性检测近年来引起了广泛的研究兴趣。这种日益流行的原因在于在各种视觉任务(如图像分割、目标检测、视频摘要和压缩等)中有效地使用了这些模型。显著性模型大致可分为两类：人眼注视预测和显著目标检测。根据输入类型，可进一步分为静态显著性模型和动态显著性模型。

背景

将CNN应用于视频显著性的第一个问题是缺乏足够大、标记密集的视频训练数据。据我所知，CNN在计算机视觉方面的成功在很大程度上归功于大规模标注图像的可用性。然而，现有的视频数据集太小，无法为CNN提供足够的训练数据。

[9] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang,A. Karpathy, A. Khosla, M. Bernstein et al., “Imagenet large scale visual recognition challenge,” International Journal of Computer Vision, vol.115, no. 3, pp. 211–252, 2015.
[10] T. Brox and J. Malik, “Object segmentation by long term analysis of point trajectories,” in European Conference on Computer Vision, 2010, pp. 282–295.
[11] F. Li, T. Kim, A. Humayun, D. Tsai, and J. M. Rehg, “Video segmentation by tracking many figure-ground segments,” in IEEE International Conference on Computer Vision, 2013, pp. 2192–2199.
[12] F. Galasso, N. Shankar Nagaraja, T. Jimenez Cardenas, T. Brox, and B. Schiele, “A unified video segmentation benchmark: Annotation, metrics and analysis,” in IEEE International Conference on Computer Vision, 2013, pp. 3527–3534.
[13] F. Perazzi, J. Pont-Tuset, B. McWilliams, L. V. Gool, M. Gross, and A. Sorkine-Hornung, “A benchmark dataset and evaluation methodology for video object segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2016.

在上表中，列出了ImageNet数据集的统计数据和广泛采用的视频目标分割数据集，包括FBMS、SegTrackV 2、VSB 100和Davis。

可以看到，现有的视频数据集在质量和数量上都很少与现有的图像数据集(如ImageNet)相匹配。另外，考虑到同一视频片段帧间的高度相关性，现有的视频