基于内容的视频标注——物体层视频标注

最新推荐文章于 2024-08-21 21:59:29 发布

moonzjaw

最新推荐文章于 2024-08-21 21:59:29 发布

阅读量1.6k

点赞数 1

分类专栏：基于内容的视频标注知识储备

知识储备同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

基于内容的视频标注

5 篇文章 0 订阅

订阅专栏

物体层视频标注比关键帧图象层视频标注更为精细，其标注的概念多和图象中的某个区域相关。当使用图象局部区域特征时，由于目标概念和特征都是“区域级”的，而训练数据通常只标注到了“图象级”，无法使用普通的单实例学习获得关于目标概念的分类模型。此时，将每个图象看成包含多个实例的一个包，而图象里的每个区域对应包里面的实例，物体层视频标注就是一个标准的多实例学习(Multiple-Instance Learning，MIL)问题。可以使用多实例学习来通过“图象级”的标注学习“区域级”的目标概念。
多实例学习的提出最早是在药物活性预测问题的研究中，Dietterich等人提出了多实例学习的概念，并提出多实例学习算法APR(Axis-parallel Reetangles)。Maron等人最早将多实例学习应用到图象标注中，并提出多样性密度算法(Diverse Density，DD)。在这两个开创性工作后，人们提出了各种多实例学习算法。下面简要回顾一下和本文最相关的一些有关多实例学习方面的研究工作。

首先回顾一下除了上面提到的两种多实例学习算法外，最经典的几种算法。在J.Wang和J-D.Zueker的Citation-kNN中，他们对k-近邻(k-Nearest Neighbor)算法进行了扩展，使其可以处理多示例学习问题。他们不使用常用的欧氏距离而是使用修正的Hansdorff距离，这样就可以有效地计算不同的包之间的距离。此外，还有Stuart Andrews等人的mi-SVM/MI-SVM，他们将SVM的多实例学习版本表示成混合整数优化问题，并采用启发式的方法求解。

其次，由于本文中的提出的MIL算法是一种基于特征映射的方法，在这里回顾一下另外几种基于特征映射的MIL算法。这类算法都是将多实例学习中的每个包映射成新的包级特征空间里的一个特征向量，将多实例学习转换为标准的单实例学习问题，再进行求解。本文中的算法和这些MIL算法的区别主要在于特征映射策略和特征映射后所使用分类器的不同。

多实例学习中如何进行特征选择：Maron等人使用搜索的方法找出每维特征的最佳权重。而Min-Ling zhang等人使用PCA对特征降维，以提高MIL神经网络的算法性能。在将多实例学习应用于视频标注中时，主要存在下面两点问题：
第一、经典的多实例表达并不适合描述一些复杂的概念，如果能对其进行拓展，会更好的描述这些概念。基于这些扩展后的多实例表达而设计的算法，在标注效果上也会优于那些基于经典的多实例表达而设计的算法。

第二、在视频标注中，特征选择对最后的标注效果影响非常大。然而普通的单实例学习下的特征选择算法通常都无法在多实例学习中直接应用。现有的研究工作很少涉及在多实例学习中如何进行特征选择的问题。如果能够应用更有效的多实例学习下的特征选择算法，将会获得更好的视频标注效果。