[论文笔记] 视频广告理解的多模态框架

心心喵

已于 2022-03-11 21:51:22 修改

阅读量3.6k

点赞数

分类专栏：论文笔记文章标签： python

于 2022-03-10 17:02:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Trance95/article/details/123389547

版权

论文笔记专栏收录该内容

158 篇文章 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

该研究提出了一种多模态框架，用于视频广告的结构理解，包括场景分割和多标签分类。通过结合视觉、音频和文本信息（ASR和OCR），使用时域卷积网络和全局-局部注意力机制，提高了视频广告内容分析的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

视频广告理解的多模态框架

A Multimodal Framework for Video Ads Understanding

摘要

在社交网络营销平台上投放视频广告的趋势越来越大，这就需要自动方法来有效理解广告内容。
以2021年TAAC比赛为契机，我们开展了发展 多模态系统 提高了结构化分析的能力广告视频内容。在我们的框架中，我们分解了视频结构分析问题分为两个任务，即 场景分段 和 多模态标签。在场景分割中，我们 建立一个时间卷积模块的时间建模预测相邻帧是否属于同一场景。

在多模态标签，我们首先计算剪辑级的视觉特征使用 NeXt-SoftDBoF 聚合帧级特性。视觉功能进一步与文本功能相补充使用 全局-局部注意力提取机制 导出有用来自OCR(光学字符识别)和ASR的信息(音频语音识别)输出。

介绍

网络视频广告具有 灵活性强、传播范围广、成本低、交互性强 等优势，是一种有效的营销方式。因此，不同的公司在制作在线视频广告上投入了越来越多的精力，并通过不同的社交平台准确地将其

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

心心喵 喵喵(*^▽^*）

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。