作者 | 阿里文娱高级算法专家 若仁
编辑 | 蔡芳芳
视频搜索是涉及信息检索、自然语言处理(NLP)、机器学习、计算机视觉(CV)等多领域的综合应用场景,随着深度学习在这些领域的长足进展以及用户对视频生产和消费的广泛需求,视频搜索技术的发展在学术和工业界都取得了飞速的发展。
阿里文娱高级算法专家若仁在 GMIC 2020 分享了视频搜索技术和多模态在视频搜索领域的应用,本文整理自演讲速记,希望能给关注或从事视频搜索方向的算法同学带来启发。
考虑到大家来自不同的业务领域和技术方向,我会先简单介绍优酷视频搜索的业务背景,同时快速介绍搜索的基本评估指标、搜索系统的算法框架以及相关性和排序模型,让大家对视频搜索有一个更全面的认识,后面重点介绍多模态视频搜索相关技术。
阿里文娱搜索现状
搜索团队为整个阿里文娱提供一站式的搜索服务,服务范围包括优酷 Phone 和 OTT 端,还包括大麦、淘票票。涉及的检索内容,从影剧综漫的长视频影视库,到覆盖社会各领域的 UPGC 视频。此外,影人和演出场馆也在搜索服务覆盖范围内。以优酷为例,我们有数亿视频资源,不仅包括平台购买了版权的 OGC 视频,更多是用户上传的 UPGC 视频。视频的存储、计算以及分发,比文字更具挑战。
搜索技术的用户价值主要体现在两个维度:
搜索技术的用户价值主要体现在两个维度:
一是工具属性。 用户将搜索服务作为寻找内容的工具,目标是“找准,找全”,即“搜的到,搜的准”。从这个维度去评估搜索效果的好坏,需要一系列的体验类指标,比如跳出率、相关性,以及时效性和多样性,这些都是搜索通用的技术指标。所谓可播性指在应用上能播放,这是全网视频搜索特有的,受内容版权和内容监管多方面的原因限制,有一些内容是平台无法播放的。此外,我们还会定期进行人工评测,做横向和纵向比较。
二是分发属性。 让用户消费更多的视频内容,有更多 VV(观看视频数)以及 TS(消费时长)的引导。这些指标对于垂直搜索非常重要,也是对用户满意度最直接的衡量。对于平台来说,搜索还能支持平台的宣发和商业价值,实现广告 / 会员的商业价值,前提是将用户体验做好。
搜索算法框架如上图所示,由下到上依次是数据层、技术层、内容召回、多媒体相关性、排序、意图。
1)数据层:视频内容数据是最基础的,我们从视频内容中抽取出对应的知识,包括实体、实体之间的关系以及属性。通过内容组织的方式,以图谱知识去指导我们做聚合,从时效性的维度做聚合,从多种维度将内容组织起来;
2)技术层:在数据基础之上,利用 CV 和 NLP 技术,