视频多模态融合检测

一、基本概念

帧(Frame):帧是视频数据流中的基本组成单元,每一帧均可看成一个独 立的图像。视频数据流就是由这些连续的图像帧构成的,在PAL视频格式中,视频采样率 为25帧/秒,在NTSC视频格式中,视频采样率为30帧/秒。 

镜头(Shot):镜头是摄像机拍下的不间断的帧序列,是视频数据流进一步 结构化的基础结构层。 

关键帧(KeyFrame):关键帧是可以用来代表镜头内容的图像。在切分出镜头结构以后,关键帧就被用来表示各个镜头的底层特征,从而进行进一步的视频结构化。 在一个视频镜头中,一般关键帧的数目要远远小于镜头所包含的图像帧数目。 

场景(Scene):语义上相关和时间上相邻的若干组镜头组成了一个场景,场景是视频所蕴涵的高层抽象概念和语义表达。 

组(Group :组是介于视频镜头和语义场景之间的结构。例如:一段采访录像,镜头在主持人与被采访者之间频繁切换,整个采访过程属于一个场景,而那些关于主持人的所有镜头属于一组,关于被采访者的所有镜头属于另外一组。

二、视频多模态融合分析

视频可以看作是一系列时间上相互依赖的图像帧组成的数据流。通常而言,在视频情节内容发生变化时,会出现镜头切换,从一个镜头内容转移到另外一个镜头内容。

视频蕴涵有丰富的视觉、听觉和字幕信息,所以这些底层特征可以是颜色、纹理、形状、音调和文本等,然后可以采用单模态分析方法,即只使用一种模态信息进行处理,或是采用多模态分析方法,即同时使用两种或是两种以上的模态信息进行处理。基于这些提取的底层特征,我们可以将视频片段索引到相关的语义概念上,例如,汽车、冰球、海滩、采访等场景。目前,多数实验结果表明,多模态视频融合分析能够产生有效的视频索引,方便视频片段的分类

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值