Embedding在推荐系统中的应用

1.Word2vec经典的Embedding算法
2.Item2vec
微软于2016年提出计算物品Embedding向量方法Item2vec,先比于利用Word2vec利用“词序列”生成词Embedding,Item2vec利用的“物品序列”,是由特定用户的浏览,购买等行为产生的历史行为记录序列,Item2vec与Word2vec唯一不同在于,Item2vec摒弃了时间窗口的概念,认为序列中任意两个物品都相关。
3.GraphEmbedding
Item2vec方法也有局限性,因为只能利用序列型数据,所以Item2vec在处理互联网场景下大量的网络化数据时往往显得捉襟见肘,后来出现了Graph Embedding。
典型的场景是由用户行为数据生成的物品关系图,以及由属性和实体组成的知识图谱,Graph Embedding最终生成的节点Embedding向量一般包含图的结构信息以及附近节点的局部相似性信息。几种主流的Graph Embedding方法
(1)DeepWalk(基础方法)
于2014年提出,它的主要思想就是由物品组成的图结构上进行随机游走,产生大量物品序列,然后将这些序列作为训练样本输入Word2vec进行训练,得到Embedding.
(2)Node2vec
2016年斯坦福大学在DeepWalk基础上,通过调整随机游走权重的方法,使Graph Embedding的结果更倾向于体现网络的同质性或结构性。同质性指的是距离相近的节点的Embedding应尽量近似,在随机游走的时候更倾向于DFS深度有限,结构性是指结构上相似的节点的Embedding应尽量近似,在随机游走的时候更倾向于BFS广度优先;在通过节点间的跳转概率,控制了BFS和DFS的倾向性。
同质性相同的物品很可能是同品类,同属性,或者经常被同一购买的商品,而结构性相同的物品则是各类的爆款,各品类的最佳凑单商品等拥有类似趋势或者结构性属性商品。
(3)EGES(Enhanced Graph Embedding with Side Information)
2018年由阿里巴巴提出,其基本思想是在DeepWalk生成的GraphEmbedding基于上引入补充信息。如果遇到新加入的物品,或者没有过多互动信息的“长尾”物品,则推荐系统将出现严重的冷启动问题,为了使冷启动的商品或得“合理”的初始Embedding,引入更多补充信息来丰富Embedding信息的来源,从而使没有历史行为记录的商品获得比较合理的初始Embedding,根据补充信息类别的不同,可以有多个补充信息embedding向量,如何融合一个物品的多个Embedding向量,使之称为物品最后的embedding,最简单方式是加入平均池化层,但为了防止简单平均池化丢失信息,阿里巴巴进行加强。
除了以上介绍的还有LINE,SDNE等方法也是重要的Graph Embedding模型
4.Embedding作为推荐系统召回层
embedding自身表达能力的增强使得直接利用Embedding生成推荐列表成了可行的选择,因此利用embedding向量的相似性,将Embedding作为推荐系统召回层的方案被推广开来,比如YouTube.
传统的Embendding相似度计算方法是Embedding向量间内积运算,意味着为了筛选某个用户的候选物品,需要对候选集合中的所有物品进行遍历,这太复杂了。可以通过kd(k-dimension)树索引结构进行最近邻搜索是常用的快速最近邻搜索方法,更主流的方法还有局部敏感哈希(Locality Sensitive Hashing,LSH)
参考《深度学习推荐系统》

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值