学术派 | 爱奇艺深度语义表示学习的探索与实践

爱奇艺技术产品团队

于 2020-05-15 19:00:00 发布

阅读量2k

点赞数

本文链接：https://blog.csdn.net/weixin_38753262/article/details/106152784

版权

导读

基于学术界和工业界经验，爱奇艺设计和探索出了一套适用于多种业务场景的深度语义表示学习框架。在推荐、搜索、直播等多个业务中的召回、排序、去重、多样性、语义匹配、聚类等场景上线，提高视频推荐的丰富性和多样性，改善用户观看和搜索体验。

本文将介绍爱奇艺深度语义表示框架的核心设计思路和实践心得。

背景

英国语言学家 J.R.Firth在1957年曾说过：“You shall know a word by the company its keeps.” Hinton于1986年基于该思想首次提出Distributed representation(分布式表示)的概念，认为具有相似上下文的词往往具有相似的语义，其中distributed 是指将词语的语义分布到词向量的各个分量上。该方法可以把词映射到连续实数向量空间，且相似词在该空间中位置相近，典型的代表作是基于神经网络的语言模型(Neural Network Language Model, NNLM)[1]。2003年Google提出word2vec[2]算法学习word embedding（词嵌入或词向量），使Distributed representation真正受到学术界、工业届的认可，从而开启了NLP embedding发展的新元代。

在万物皆embedding的信息流时代，embedding能够将文本、图像、视频、音频、用户等多种实体从一种高维稀疏的离散向量表示(one-hot representation)映射为一种低维稠密的连续语义表示(distributed representation)，并使得相似实体的距离更加接近。其可用于衡量不同实体之间的语义相关性，作为深度模型的语义特征或离散特征的预训练embedding，广泛应用于推荐和搜索等各个业务场景，比如推荐中的召回、排序、去重、多样性控制等，搜索中的语义召回、语义相关性匹配、相关搜索、以图搜剧等。

相比传统的embedding模型, 深度语义表示学习将实体丰富的side information(e.g.多模态信息, 知识图谱，meta信息等)和深度模型(e.g. Transformer[3], 图卷积网络[4]等)进行深度融合，学习同时具有较好泛化性和语义表达性的实体embedding, 为下游各业务模型提供丰富的语义特征，并在一定程度上解决冷启动问题, 进而成为提升搜索和推荐系统性能的利器。

爱奇艺设计和探索出了这套适用于爱奇艺多种业务场景的深度语义表示学习框架，并在推荐的多个业务线以及搜索中成功上线。在短&小视频、图文信息流推荐以及搜索、直播等15个业务中的召回、排序、去重、多样性、语义匹配、聚类等7种场景，完成多个AB实验和全流量上线，短&小视频以及图文推荐场景上，用户的人均消费时长共提升5分钟以上，搜索语义相关性准确率相比baseline单特征提升6%以上。

面临的挑战 ：

传统的embedding学习模型主要基于节点序列或基于图结构随机游走生成序列构建训练集，将序列中的每个节点编码为一个独立的ID，然后采用浅层网络(e.g. item2vec[6], node2vec[7])学习节点的embedding。该类模型只能获取训练语料中节点的浅层语义表征，而不能推理新节点的embedding，无法解决冷启动问题，泛化性差。将传统的embedding学习模型应用于爱奇艺业务场景中主要面临以下问题：

1. Embedding实体种类及关系多样性

传统的embedding模型往往将序列中的item视为类型相同的节点，节点之间的关系类型较单一。爱奇艺各业务线中的用户行为数据往往包含多种类型的数据，比如，文本(长短文本，句子&段落&篇章级别)、图像、图文、视频(比如，长、短、小视频)、用户(比如up主、演员、导演、角色)、圈子（泡泡、文学等社区）、query等；不同类型节点之间具有不同的关系，比如用户行为序列中节点之间的关系包括点击、收藏、预约、搜索、关注等，在视频图谱中节点之间的关系包括执导、编写、搭档、参演等。

2. Side information丰富

传统的embedding模型往往采用浅层网络（比如3层DNN, LSTM等），特征抽取能力较弱；此外将item用一个独立ID来表示，并未考虑item丰富的side information和多模态信息，往往仅能学到item的浅层语义表征。而爱奇艺各业务中的item具有丰富的多模态信息(比如，文本、图像、视频、音频)和各种meta信息(比如视频类型、题材、演员属性等)，如何有效和充分的利用这些丰富的side information以及多模态特征的融合，对于更好的理解item的深层语义至关重要。

3. 业务场景多样

Embedding可用于推荐中的召回、排序、去重、多样性以及用户画像建模等，搜索中的语义召回、排序、视频聚类、相关搜索等，以及作为各种下游任务的语义特征等多种业务场景。不同的业务场景往往需要不同类型的embedding。

· 推荐召回场景：

1）基于行为的embedding模型召回偏热门，效果较好；

2）基于内容的embedding模型召回偏相关性，对相关推荐场景和新内容冷启动更有帮助；

3）基于行为和内容的embedding模型介于前两者之间，能同时保证相关性和效果。

· 排序场景：

往往使用后两种embedding模型，可基于训练好的模型和内容实时获取未知节点的embedding特征。

· 多样性控制：

基于内容原始表示的embedding模型用于去重和多样性打散效果往往较好。

深度语义表示学习 ：

深度语义表示学习在传统的embedding学习模型基础上，引入节点丰富的side information(多模态信息和自身meta信息)以及类型的异构性，并对多模态特征进行有效融合，将浅层模型替换为特征抽取能力更强的深度模型，从而能够学习节点的深度语义表征。

针对爱奇艺的业务场景和数据特点，我们设计出了一种满足现有业务场景的深度语义表示学习框架(如图 1所示)，该框架主要包含四层：数据层、特征层、策略层和应用层。下面主要从特征层和策略层中的各种深度语义表示模型两方面进行详细介绍。

数据层：主要搜集用户的各种行为数据构建节点序列和图，构建embedding模型训练数据；
特征层：主要用于各种模态(文本、图像、音频、视频等)特征的抽取和融合，作为深度语义表示模型中输入的初始语义表征；
策略层：提供丰富的深度语义表示模型及评估方法，以满足不同的业务场景；
应用层：主要为下游各业务线的各种场景提供embedding特征、近邻以及相关度计算服务。

图1深度语义表示学习框架

特征抽取及融合 ：

在自然语言处理(NLP)领域，预训练语言模型(比如BERT[8])能够充分利用海量无标注语料学习文本潜在的语义信息，刷新了NLP领域各个任务的效果。爱奇艺涵盖视频、图文的搜索、推荐、广告、智能创作等多种业务场景，除了文本(标题，描述等)外，还需进一步对图像、视频和音频等多种模态信息进行深入理解。

1.1. 多模态特征抽取

借鉴预训练语言模型的思想，我们尝试借助大规模无标注的视频和图文语料，学习不同粒度文本(query、句子、段落、篇章)、图像、音频和

最低0.47元/天解锁文章

爱奇艺技术产品团队

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学术派 | 爱奇艺深度语义表示学习的探索与实践

导读基于学术界和工业界经验，爱奇艺设计和探索出了一套适用于多种业务场景的深度语义表示学习框架。在推荐、搜索、直播等多个业务中的召回、排序、去重、多样性、语义匹配、聚类等场景上线，提高视频...
复制链接

扫一扫