视频广告理解的多模态框架
A Multimodal Framework for Video Ads Understanding
摘要
在社交网络营销平台上投放视频广告 的趋势越来越大,这就需要自动方法来有效理解广告内容。
以2021年TAAC比赛为契机,我们开展了发展 多模态系统 提高了结构化分析的能力广告视频内容。在我们的框架中,我们分解了视频结构分析问题分为两个任务,即 场景分段 和 多模态标签。在场景分割中,我们 建立一个时间卷积模块的时间建模预测相邻帧是否属于同一场景。
在多模态标签,我们首先计算剪辑级的视觉特征使用 NeXt-SoftDBoF 聚合帧级特性。视觉功能进一步与文本功能相补充使用 全局-局部注意力提取机制 导出有用来自OCR(光学字符识别)和ASR的信息(音频语音识别)输出。
介绍
网络视频广告 具有 灵活性强、传播范围广、成本低、交互性强 等优势,是一种有效的营销方式。因此,不同的公司在制作在线视频广告上投入了越来越多的精力,并通过不同的社交平台准确地将其传递给用户。
由于视频广告的重要价值,也有许多研究都与视频广告有关,包括广告推荐、质量监控、中断时间估计、等。随着5G领域的快速发展,视频的数量越来越多广告也迅速增加,因此它是至关重要的
自动有效地理解视频广告的结构。与传统的视频广告分类不同,视频广告结构的真正理解需要模型才能进行细分广告正确地进入不