视频广告理解的多模态框架
A Multimodal Framework for Video Ads Understanding
摘要
在社交网络营销平台上投放视频广告 的趋势越来越大,这就需要自动方法来有效理解广告内容。
以2021年TAAC比赛为契机,我们开展了发展 多模态系统 提高了结构化分析的能力广告视频内容。在我们的框架中,我们分解了视频结构分析问题分为两个任务,即 场景分段 和 多模态标签。在场景分割中,我们 建立一个时间卷积模块的时间建模预测相邻帧是否属于同一场景。
在多模态标签,我们首先计算剪辑级的视觉特征使用 NeXt-SoftDBoF 聚合帧级特性。视觉功能进一步与文本功能相补充使用 全局-局部注意力提取机制 导出有用来自OCR(光学字符识别)和ASR的信息(音频语音识别)输出。
介绍
网络视频广告 具有 灵活性强、传播范围广、成本低、交互性强 等优势,是一种有效的营销方式。因此,不同的公司在制作在线视频广告上投入了越来越多的精力,并通过不同的社交平台准确地将其