embedding向量召回论文分享

万物皆可embedding

在学习推荐系统算法模型时,少不了embedding的应用。尤其是深度学习时代,有的推荐算法模型甚至可以说就是在做embedding的过程,可见embedding在推荐系统中的重要性。Embedding最早来自于nlp中的w2v,之后有人提出了item2vec。在此之后,物品embedding向两个方向发展。1) 一部分是序列,主要基于graph获得item的序列,进而利用w2v得到item的embedding,较为有名的:graph embedding,deepwalk,node2vec,line。2) 另一个方向,是利用有监督的反馈,来匹配得到item embedding,这个方向在工业界广泛使用。这篇文章主要介绍第二个方向,从4篇顶会论文出发,由远及近地介绍向量召回的发展,感受下“embedding”这一重要思想。

Dssm

Huang P S , He X , Gao J , et al. Learning deep structured semantic models for web search using clickthrough data[C]// Proceedings of the 22nd ACM international conference on Conference on information & knowledge management. ACM, 2013.
在这里插入图片描述
DSSM的原理很简单,通过搜索引擎里 Query 和 Title 的海量的点击曝光日志,用 DNN 把 Query 和 Title 表达为低纬语义向量,并通过 cosine 距离来计算两个语义向量的距离,最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达。
原论文中是基于query和item,最早使用在搜索中。对应可变换为user和item。输出目标为预测用户对商品的点击率。

Youtube dnn

Covington P , Adams J , Sargin E . Deep Neural Networks for YouTube Recommendations[J]. 2016:191-198.
在这里插入图片描述
作者们实际上将推荐问题看作一个多分类问题(超大规模多分类):已知视频全集V,用户U和其上下文C,预测其在t时刻的视频类别。如文中所说,该DNN的目的是学习user embedding向量,作为输入送到softmax classifier,用以生成初步候选集。
受启发于NLP中对词袋的处理。文中将用户历史观看视频ID (定长的,如历史前20次观看记录,不足补零)和用户历史搜索视频ID转化成定长的的embedding vector(可以通过求均值,补零等操作转化成定长)。使用DNN的原因之一:在DNN中连续性变量和类别型变量都很容易输入到模型中,包括一些人口统计特征(Demographic features),对最终的效果起着十分重要的作用。用户的地域,设备等都可以作为embedding向量输入到DNN中去。简单的二值化特征(如性别)和数值型特征(如年龄)可以直接输入到DNN中,数值型需要经过归一化到[0,1]再输入到模型中。

Facebook ebr

Jui-Ting Huang, Ashish Sharma, Shuying Sun. Embedding-based Retrieval in Facebook Search.
在这里插入图片描述
模型:老生常谈的双塔模型。双塔避免底层就出现特征交叉,方便拆分模型使doc embedding进入FAISS。双塔模型不是唯一的,只要<user,doc>的匹配得分能够表达成user embedding/doc embedding内积或cosine的形式,比如FM,都适用于召回。
LOSS:文中使用了Pairwise Hinge Loss的形式, l o s s = m a x ( 0 , m a r g i

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值