深度 | 上亿用户每天看100分钟!基于多模态Embedding及检索的短视频内容理解

快手技术副总裁王仲远博士介绍了团队如何通过结合自监督与有监督学习,优化多模态Embedding模型,实现短视频内容理解和个性化推荐。他们利用Hashtag、搜索Query和用户评论作为群体智慧的监督信号,构建了多模态预训练模型,以提高内容理解的准确性。此外,模型应用于视频创作辅助、流量预估、内容推荐和相关视频检索等方面,推动短视频平台的发展。
摘要由CSDN通过智能技术生成

【栏目:前沿进展】短视频早已经深入人心。在快手平台上,目前每个月用户创作并上传的短视频数量已经超过了11亿,这些内容被上传之后会经过内容理解引擎和推荐引擎,最终分发给快手的每个用户。

在平台上每天有超过3.7亿的用户会平均花费将近100分钟的时间观看短视频内容,观看直播,以及在平台上进行各种各样的消费。

在智源大会的智能检索与挖掘论坛上,快手副总裁王仲远博士介绍了团队在构建多模态Embedding模型方面所做的工作,提出将自监督与有监督学习相结合,辅助多种模型优化方法,更好地实现了短视频的内容理解和个性化推荐,进而为未来短视频平台的发展方向做出规划。

整理:路啸秋

编校:李梦佳

王仲远,博士,快手技术副总裁,MMU负责人。荣获2018年“《麻省理工科技评论》35岁以下科技创新35人”。曾在美团、Facebook、微软亚洲研究院任职,负责人工智能核心技术研发。王仲远博士在国际顶级学术会议及期刊发表论文50余篇,其中包括美国著名科学杂志《自然》人工智能子刊《Nature Machine Intelligence》,以及获得国际顶级学术会议ICDE 2015最佳论文奖。出版学术专著3部,获得美国专利5项,中国专利30余项。在NLP、知识图谱研究领域及搜索推荐等实际产品系统中均有丰富经验与产出。他的研究兴趣包括:自然语言处理、知识图谱、多模态、搜索推荐、深度学习、数据挖掘等。

以快手平台为例,为了能够对这些丰富多彩的内容进行深度理解,并且通过推荐引擎个性化地分发给每一个用户,需要采用例如Embedding等技术将短视频映射到能够表达语义信息的语义空间。自从Embedding提出以来,越来越多的研究学者将其应用在自然语言处理、知识图谱、视觉音频图像等领域。

这些年在各种各样Embedding的工作当中,自监督学习凭借大数据的优势大放异彩,跟传统的有监督学习的方式相比,自监督学习可以利用互联网上的大数据以及各个APP里面用户上传的真实的海量数据,所以能达到一个模型预训练以及特征提取的目的。但是,它也面临非

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值