基于内容的视频标注是在传统的检索技术不能满足现在的海量视频检索要求,人们转向研究基于内容的视频检索这个大背景下提出来的。它根据视频的内容把视频按照不同的语义概念标注关键字,这是建立视频索引,进而实现高效视频检索的必要基础。目前,视频标注中主要采用的方法可以分为三类:手工标注、基于规则的标注和基于机器学习的标注。
基于规则的标注是利用某领域的专家知识建立相应的分类规则进行标注。但是,这些规则通常不能概括所有的语义内容,也就无法满足视频标注通用性和实用性的要求。
基于机器学习的方法通过对手工标注的训练视频数据的学习,建立各语义概念的模型,然后用该模型对未标注的视频数据集进行分类,标注对应的语义概念。由于机器学习理论相对成熟,一般认为它是解决视频标注问题比较合适的方法,目前视频标注的研究也主要集中于如何利用机器学习理论来提高标注的准确性。
根据所标注概念在视频结构上的不同层次,可将视频标注划分为下面三种:视频类型层标注,关键帧图象层标注,和图象中的物体层标注。视频标注不同层次图如下所示: