基于Embedding召回和DSSM双塔模型

最新推荐文章于 2024-04-28 23:03:10 发布

蜜桃上的小叮当

最新推荐文章于 2024-04-28 23:03:10 发布

阅读量1k

点赞数 27

分类专栏：推荐系统文章标签： embedding

本文链接：https://blog.csdn.net/sinat_31854967/article/details/136217252

版权

25 篇文章 4 订阅

订阅专栏

基于embedding的召回是从内容文本信息和用户查询的角度出发，利用预训练的词向量模型或深度学习模型，将文本信息转换成向量进行表示，通过计算两个向量之间的距离或者相似度来推荐内容。这种方式主要考虑商品文本信息的语义信息，使推荐的内容更加精准。
Embedding召回主要的优缺点
- 优点：
  扩展性强：基于 Embedding 的召回算法可以学习大规模物品或用户的向量表示，因此对于超大规模推荐系统也可以进行有效召回。
  表达能力强：基于 Embedding 的召回算法可以学习到物品或用户更为细致的特征表示，因此能够更好地捕捉物品或用户之间的相似性。
  可解释性强：基于 Embedding 的召回算法可以自然地将物品或用户表示为低维向量，这使得我们可以通过可视化等手段来更好地理解和解释推荐结果。
- 缺点：
  数据量大，训练周期长，只能表示用户与物品向量表示关系，无法进行高维度特征表示（时间序列等），调参过程比较繁琐。

I2I也就是Item-to-Item，实际上就是要将每一个 Item 用向量来表示。在Item-to-Item 召回中，系统会根据用户已经交互过的物品，找到这些物品的相似度，然后根据相似度来召回其他类似的物品作为推荐结果。这个向量的表示，我们就可以理解为Embedding。
Item-to-Item召回通常分为两个步骤：第一步，计算物品之间的相似度；第二步：用户请求推荐时，系统根据该用户的历史交互行为，找到该用户已交互过的物品并选取与之最相似的一些物品作为推荐结果。
常见的I2I召回算法有Word2Vec、Item2Vec、FastText、BERT等。

U2I也就是User-to-Item，它基于用户的历史行为以及用户的一些个人信息，对系统中的候选物品进行筛选，挑选出一部分最有可能被用户喜欢的物品，送入推荐模型进行排序和推荐。
常见的U2I策略有：
- 基于用户历史行为召回
- 基于用户画像召回
- 基于社交网络召回
常见的U2I召回算法有DSSM双塔模型、YouTubeDNN等。

DSSM模型又叫双塔模型（全称 Deep Structured Semantic Model），User塔适合在线计算User-Embedding；Item塔适合离线计算Item-Embedding，通过向量检索就可以进行快速地召回。线上预测的时候，只需要在内存中计算相似度运算即可（Cosine-similarity等）。
DSSM双塔模型图
User塔表示用户历史行为的信息（如用户的浏览记录、购买记录等）。它的输入是一个用户的历史行为序列，其目标是把这个序列映射为一个固定的用户向量表示，该向量表示用户的兴趣特征。
Item塔表示所有的物品的信息（如物品的标题、描述、标签等）。它的输入是一个物品的特征序列或向量，其目标是把这个序列或向量映射为一个固定的物品向量表示，该向量表示物品的特征。
借助于用户历史行为和物品的特征向量表示，DSSM可以计算用户特征向量和物品特征向量之间的相似度，预测哪些物品最符合用户的兴趣并产生最高的预测分数。这些物品可以按照预测分数的高低排序，推送给用户进行推荐。所以DSSM双塔模型的作用就是协同基于用户历史行为和物品特征对用户兴趣进行建模，并通过此模型产生个性化推荐结果。

根据上面的架构图来看，DSSM双塔模型主要分为三层
- 输入层：User侧特征和Item侧特征是输入层。输入层主要的作用是把文本映射到低维向量空间，转化成向量提供给深度学习网络。
- 表示层：DNN就是表示层，DSSM模型表示层使用的是BOW（Bag Of Words）词袋模型，没有考虑词序的信息。不考虑词序其实存在明显的问题，因为一句话可能词相同，但是语义则相差十万八千里。
- 匹配层：匹配层就是针对于前面的Query和Doc进行相似度计算，这个过程实际上非常简单，就是把Query 和Doc统一转换成了两个128维的语义向量，通过Cosine计算这两个向量的余弦相似度。
表示层的结构图
术语解释：
- Term Vector：目标文本的embedding向量
- Word Hashing：因为目标向量维数比较大，而对BOW向量进行降维。
- Multi-layer non-linear projection：深度学习网络多隐层，通过降维最终生成128维。
- Semantic Feature：Query&Doc最终生成的embedding向量。
- Relevance measured by cosine similarity：Query&Doc所计算的余弦相似度。
- Posterior probability computed by softmax：通过Softmax函数计算Query和正样本Doc语义相似性进行后验概率。
所用公式：
- DNN：
- 激活函数：
- 相似度计算公式：
- softmax后验概率公式：
- 损失函数：
  
  Tips：这些截图信息都是我在论文里找的，详细请参考链接。

关注

专栏目录