爱奇艺短视频智能标签生成实践

随着网络的发展,每天有海量的UGC视频被用户上传到各大平台,如何高效的分发与使用这些视频是平台一直需要解决的问题。

视频的标签可以高效概括视频的主体内容,有利于推荐、搜索广告等业务对于海量短视频的精确使用。标签的生成是视频理解的产物,按照类型来分,可以分为类型标签和内容标签。类型标签主要是根据各业务的特点定制一套体系框架,将每个短视频映射到定制的框架中。而内容标签是用于描述视频主体内容的开放式词汇集,很难提前制定完备的体系枚举出每个词汇,更多的时候它是一个无穷的集合。本文详细介绍爱奇艺短视频场景下的内容标签。

01

   背景

  标签依赖多模态元信息  

标签的生成依赖视频的原始信息。短视频的元信息主要包括标题,简介描述,上传者资料,视频影像,音频等各种模态信息。我们要求算法能充分融合利用各类信息,从多个不同的侧面去刻画短视频信息,可以避免单维度缺失导致精度识别的不稳定性的问题。

6904f89071f5e05bbd210324cf009fb2.png

多模态元信息包括音视频、标题、简介、上传者等

  标签生成的难点  

  1. 标签作为描述内容的词汇集,并没有客观的评定标准。不同业务因为业务关注点差异,有不同的标注规范。即便同一个业务有统一标注体系,但很多case不同的标注人员有不同的理解。

  2. 很多标签是对内容的抽象概况,需要算法真正理解视频的内容并予以总结。比如短视频【买鸡蛋,选大的好还是选小的好?养殖户说漏了嘴,以后别瞎买了】,其标签规范为“生活”,“鸡蛋”,“小窍门”。其中“小窍门”就是需要结合视频内容进行提炼的。再比如大部分人物闲聊类属于生活类目,但如果视频对于生活的某些方面做了总结,对于其他观看的人群有一定的借鉴作用,可能就会属于百科类目。

  3. 对未见过的新内容的理解。比如对于新上线的电视剧片段【赘婿】,希望有自动化打上“赘婿”、“郭麒麟”这样标签的能力。

  4. 标注规范的不断变更。比如某些活动类的标签,“暑期玩具大放送”、“美食达人成长计划”都是固定时期开展的短视频类活动,有一定的时效性。再比如

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值