这里是item2vec 论文翻译
很多协同过滤算法都是基于item的,因为这些算法分析出item之间的关系来算出item相似度,最近NLP领域有了些新动向,这些东西建议用神经网络嵌入算法来学习单词的潜在表示。其中SGNS 也就是Word2Vec最厉害,在各种语言类任务中表现完美。在这片论文中,我们证明了基于item的协同滤波也能转成一样的嵌入框架中。受SGNS启发,我们讲述了一个item2vec的方法来为item做潜在空间的嵌入。这个方法能在不适用用户信息的时候也能推测出item之间的关系。我们最后拿出了大范围数据集的结果来展示item2vect的有效性(不输给svd)
计算item相似度是建造推荐系统模块的关键一环。虽然(省略两句)。这篇文章解决了被人忽视的任务-学习item相似度用低纬度空间的item嵌入。
基于item的相似度用来给做单item的推荐系统(就是有一个item就能给你推荐的意思)。这根传统的user2item的系统不一样,因为user2item会考虑用户购买意愿及兴趣,所以item相似度推荐系统比user2item系统有更高的ctr(这怎么所以的???原文逻辑奇妙),一般会覆盖大部分的item售卖及利润。
单item系统也能用于其他任务比如candy rank,或者打包购买(手机和手机壳一起买的感觉),这个系统能做更多的探索和发现提高用户体验。然而定义松弛变量学习item关系的传统模型不太可能比直接学习item关系的模型好(单item系统)。
item相似度也是 item base协同过滤的核心,目标是学习item-到item的表现形式。大范围的数据集,user比item的数量多,那么只计算item关系不计算user到item的关系的场景下就会需要item-based的协同过滤。
有些情况我们不需要考虑user到item 的关系,因为有时候用户信息是缺失的。比如今天有很多订单都没有用户身份确认(就是不知道谁买的)
(省略一段)
那么基于其他领域的成功,我们提交了sneg的修改版,取名为item2vec。这个模型比svd要好但是没有达到state-of-art的level,它是一个item based推荐的一个应用。
SGNS
它是一个神经嵌入算法,它的目标是找出单词的表达来确定单词和同在一个句子中其他单词的关系。在余下的章节中,我会简单概括下这个方法。
给定从词汇表中的一个序列,sgns的目标是最小化一下函数
c是上下文窗口大小
uv是单词的目标和上下文表示
上面这个式子无法计算,因为词汇表大小特别大。