视频搜索太难了！阿里文娱多模态搜索算法实践

阿里巴巴文娱技术

于 2020-06-17 08:59:08 发布

阅读量1.7k

点赞数 2

分类专栏：阿里技术阿里巴巴文娱技术

本文链接：https://blog.csdn.net/alienttech/article/details/106799934

版权

阿里文娱高级算法专家分享了视频搜索技术的实践，介绍了多模态视频搜索在解决内容相关性匹配、实体知识匹配和语义匹配等挑战中的应用。通过内容理解、NLP和CV技术，提升视频搜索的准确性和用户体验，包括内容召回、多媒体相关性、排序和意图理解。多模态技术通过整合语言、语音、文字和图像信息，增强搜索体验，应对用户多样化的需求和长视频理解的复杂性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

作者 | 阿里文娱高级算法专家若仁
编辑 | 蔡芳芳

视频搜索是涉及信息检索、自然语言处理（NLP）、机器学习、计算机视觉（CV）等多领域的综合应用场景，随着深度学习在这些领域的长足进展以及用户对视频生产和消费的广泛需求，视频搜索技术的发展在学术和工业界都取得了飞速的发展。

阿里文娱高级算法专家若仁在 GMIC 2020 分享了视频搜索技术和多模态在视频搜索领域的应用，本文整理自演讲速记，希望能给关注或从事视频搜索方向的算法同学带来启发。

考虑到大家来自不同的业务领域和技术方向，我会先简单介绍优酷视频搜索的业务背景，同时快速介绍搜索的基本评估指标、搜索系统的算法框架以及相关性和排序模型，让大家对视频搜索有一个更全面的认识，后面重点介绍多模态视频搜索相关技术。

阿里文娱搜索现状

搜索团队为整个阿里文娱提供一站式的搜索服务，服务范围包括优酷 Phone 和 OTT 端，还包括大麦、淘票票。涉及的检索内容，从影剧综漫的长视频影视库，到覆盖社会各领域的 UPGC 视频。此外，影人和演出场馆也在搜索服务覆盖范围内。以优酷为例，我们有数亿视频资源，不仅包括平台购买了版权的 OGC 视频，更多是用户上传的 UPGC 视频。视频的存储、计算以及分发，比文字更具挑战。

在这里插入图片描述
搜索技术的用户价值主要体现在两个维度：

搜索技术的用户价值主要体现在两个维度：

一是工具属性。 用户将搜索服务作为寻找内容的工具，目标是“找准，找全”，即“搜的到，搜的准”。从这个维度去评估搜索效果的好坏，需要一系列的体验类指标，比如跳出率、相关性，以及时效性和多样性，这些都是搜索通用的技术指标。所谓可播性指在应用上能播放，这是全网视频搜索特有的，受内容版权和内容监管多方面的原因限制，有一些内容是平台无法播放的。此外，我们还会定期进行人工评测，做横向和纵向比较。

二是分发属性。 让用户消费更多的视频内容，有更多 VV（观看视频数）以及 TS（消费时长）的引导。这些指标对于垂直搜索非常重要，也是对用户满意度最直接的衡量。对于平台来说，搜索还能支持平台的宣发和商业价值，实现广告 / 会员的商业价值，前提是将用户体验做好。
在这里插入图片描述
搜索算法框架如上图所示，由下到上依次是数据层、技术层、内容召回、多媒体相关性、排序、意图。