[论文笔记] 视频广告内容结构的多模态表示学习

本文提出了一种多模态编码器,结合视频、音频和文本信息,用于视频广告的内容结构化。通过边界匹配网络(BMN)进行时间分割,利用场景引导对齐和重新排序优化提案准确性。实验表明,该方法在多模态广告视频理解任务上取得优秀效果,证实了多模态内容在视频广告分析中的重要性。
摘要由CSDN通过智能技术生成

视频广告内容结构的多模态表示学习

另,做了5折交叉验证。

 

摘要

视频广告内容结构化 的目的是对给定的视频广告进行分段,并在不同的表现形式、场景、风格上,对每个分段场景标注。

不同于现实生活中的视频,视频广告中包含的内容充分且实用多模态内容,如字幕和语音,提供重要的重要的视频语义,将加强结构过程。在本文中,我们提出了一种多模态编码器来从视频广告的音频和文本学习多模态表示

基于多模态表示,我们应用边界匹配网络BMN生成临时提名。为了使提名更加准确,我们通过场景引导对齐和重新排序细化提名。最后,我们将方案定位嵌入引入多模态

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值