CVPR'22 | 基于像素差异学习的视频高光检测算法及在视频广告中的应用

丨目录:

   · 背景

   · 相关工作

   · 主要成果

   · 方法设计

   · 实验效果

   · 电商数据集建设

   · 算法应用

   · 总结与展望

   · 关于我们

本文分享阿里妈妈创意&视频平台团队在视频制作方向上关于视频高光检测技术的探索与实践,在多个核心广告场景中取得线上收益。基于该项工作总结的论文已被 CVPR 2022 录用,欢迎阅读交流~

论文:Learning Pixel-Level Distinctions for Video Highlight Detection

下载:https://arxiv.org/abs/2204.04615

背景

淘内主要的商业化流量集中在搜索、推荐等信息流场景,基于性能、效率等各方面原因,以上场景对视频素材有特殊的要求:时间短(3秒~10秒) + 静音播放。在这样的限制下,对视频素材的视觉内容要求很高,需要集中高效地传递信息,以迅速抓住用户的眼球,留住用户并促成点击。否则由于用户滑动浏览的成本低速度快,如果不能在较短的时间内播放最可能吸引用户的精彩内容,那么这次曝光就无法产生收益。

在我们能够获取的商品各类素材中,本身就存在质量相对可靠的视频来源,即商品主图视频(也叫详情页视频、头图视频)。商品主图视频由广告主拍摄上传得到,覆盖了近一半的淘宝商品,数量和质量都有一定保障。商品主图视频的内容比较符合主流的内容化视频风格,对商品的描述也很全面,但是由于视频信息比较分散,不能在短时间内集中展现吸引用户眼球的主要内容,并不适合直接投放在淘内主要的搜索、推荐等信息流场景。为了解决这个问题,我们需要把主图视频的高光时刻自动选取出来,用于信息流场景的广告投放。

相关工作

将长视频中最吸引人的高光时刻自动化提取的视频高光检测(Video Highlight Detection,以下简称VHD),在CV领域一直是一个被广泛关注的经典问题。学术界对VHD技术的探索主要集中在通用场景的内容视频中,公开的数据集包括YouTube Highlight Dataset、TVSum、CoSum、SumMe等,主流方法主要分为监督方法和弱监督方法。

监督方法主要依赖于标注数据,需要人工选取原视频的highlight部分作为训练标签,典型代表为Video2GIF、LSVM等。已有的人工标注数据集主要以表演秀或者运动视频为主,这些视频的主旨非常明确,精彩部分所具有的特点比较容易达成共识,比如在马戏团表演视频中的精彩部分一定是关于动物的表演片段。因此对于标注人员而言,能够比较准确的选取

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值