视频广告内容结构的多模态表示学习
另,做了5折交叉验证。
摘要
视频广告内容结构化 的目的是对给定的视频广告进行分段,并在不同的表现形式、场景、风格上,对每个分段场景标注。
不同于现实生活中的视频,视频广告中包含的内容充分且实用多模态内容,如字幕和语音,提供重要的重要的视频语义,将加强结构过程。在本文中,我们提出了一种多模态编码器来从视频广告的音频和文本学习多模态表示。
基于多模态表示,我们应用边界匹配网络BMN生成临时提名。为了使提名更加准确,我们通过场景引导对齐和重新排序细化提名。最后,我们将方案定位嵌入引入多模态