深度 | 上亿用户每天看100分钟！基于多模态Embedding及检索的短视频内容理解

智源社区

于 2021-07-13 18:20:24 发布

阅读量1.9k

点赞数

文章标签：人工智能大数据编程语言计算机视觉机器学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/118716074

版权

快手技术副总裁王仲远博士介绍了团队如何通过结合自监督与有监督学习，优化多模态Embedding模型，实现短视频内容理解和个性化推荐。他们利用Hashtag、搜索Query和用户评论作为群体智慧的监督信号，构建了多模态预训练模型，以提高内容理解的准确性。此外，模型应用于视频创作辅助、流量预估、内容推荐和相关视频检索等方面，推动短视频平台的发展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【栏目：前沿进展】短视频早已经深入人心。在快手平台上，目前每个月用户创作并上传的短视频数量已经超过了11亿，这些内容被上传之后会经过内容理解引擎和推荐引擎，最终分发给快手的每个用户。

在平台上每天有超过3.7亿的用户会平均花费将近100分钟的时间观看短视频内容，观看直播，以及在平台上进行各种各样的消费。

在智源大会的智能检索与挖掘论坛上，快手副总裁王仲远博士介绍了团队在构建多模态Embedding模型方面所做的工作，提出将自监督与有监督学习相结合，辅助多种模型优化方法，更好地实现了短视频的内容理解和个性化推荐，进而为未来短视频平台的发展方向做出规划。

整理：路啸秋

编校：李梦佳

王仲远，博士，快手技术副总裁，MMU负责人。荣获2018年“《麻省理工科技评论》35岁以下科技创新35人”。曾在美团、Facebook、微软亚洲研究院任职，负责人工智能核心技术研发。王仲远博士在国际顶级学术会议及期刊发表论文50余篇，其中包括美国著名科学杂志《自然》人工智能子刊《Nature Machine Intelligence》，以及获得国际顶级学术会议ICDE 2015最佳论文奖。出版学术专著3部，获得美国专利5项，中国专利30余项。在NLP、知识图谱研究领域及搜索推荐等实际产品系统中均有丰富经验与产出。他的研究兴趣包括：自然语言处理、知识图谱、多模态、搜索推荐、深度学习、数据挖掘等。

以快手平台为例，为了能够对这些丰富多彩的内容进行深度理解，并且通过推荐引擎个性化地分发给每一个用户，需要采用例如Embedding等技术将短视频映射到能够表达语义信息的语义空间。自从Embedding提出以来，越来越多的研究学者将其应用在自然语言处理、知识图谱、视觉音频图像等领域。