一、基本概念
帧(Frame):帧是视频数据流中的基本组成单元,每一帧均可看成一个独 立的图像。视频数据流就是由这些连续的图像帧构成的,在PAL视频格式中,视频采样率 为25帧/秒,在NTSC视频格式中,视频采样率为30帧/秒。
镜头(Shot):镜头是摄像机拍下的不间断的帧序列,是视频数据流进一步 结构化的基础结构层。
关键帧(KeyFrame):关键帧是可以用来代表镜头内容的图像。在切分出镜头结构以后,关键帧就被用来表示各个镜头的底层特征,从而进行进一步的视频结构化。 在一个视频镜头中,一般关键帧的数目要远远小于镜头所包含的图像帧数目。
场景(Scene):语义上相关和时间上相邻的若干组镜头组成了一个场景,场景是视频所蕴涵的高层抽象概念和语义表达。
组(Group :组是介于视频镜头和语义场景之间的结构。例如:一段采访录像,镜头在主持人与被采访者之间频繁切换,整个采访过程属于一个场景,而那些关于主持人的所有镜头属于一组,关于被采访者的所有镜头属于另外一组。
二、视频多模态融合分析
视频可以看作是一系列时间上相互依赖的图像帧组成的数据流。通常而言,在视频情节内容发生变化时,会出现镜头切换,从一个镜头内容转移到另外一个镜头内容。
视频蕴涵有丰富的视觉、听觉和字幕信息,所以这些底层特征可以是颜色、纹理、形状、音调和文本等,然后可以采用单模态分析方法,即只使用一种模态信息进行处理,或是采用多模态分析方法,即同时使用两种或是两种以上的模态信息进行处理。基于这些提取的底层特征,我们可以将视频片段索引到相关的语义概念上,例如,汽车、冰球、海滩、采访等场景。目前,多数实验结果表明,多模态视频融合分析能够产生有效的视频索引,方便视频片段的分类。