推荐系统（十一）DSSM双塔模型

最新推荐文章于 2024-07-12 17:37:07 发布

LightYoungLee

最新推荐文章于 2024-07-12 17:37:07 发布

阅读量5.6k

点赞数 2

分类专栏：推荐系统文章标签：机器学习深度学习人工智能推荐系统

本文链接：https://blog.csdn.net/weixin_37688445/article/details/114448445

版权

推荐系统专栏收录该内容

19 篇文章 21 订阅

订阅专栏

前言

工作上将DSSM baseline模型引入组内推荐系统，这里总结下，方便后续回顾。

原理

原理较为简单，这里不再赘述，主要原理见下图：
在这里插入图片描述

损失函数

原始损失函数

首先query $Q$ 和doc $D$ 之间的相似度为，其中 $y_Q$ 和 $y_D$ 为query和doc的embedding：
$R(Q,D)=cos(y_Q, y_D)=\frac{y^T_Q y^T_D}{||y_Q|||y_D||}$

对于给定的 $Q$ ，正样本 $D^+$ 的预测点击率为：
$P(D^+|Q)=\frac{exp(\gamma R(Q,D^+))}{\sum_{D'\in D_s}exp(\gamma R(Q,D'))}$

其中 $D_s=\{D^+, D^-_1, D^-_2, ..., D^-_N\}$ ，其中 $N$ 是为正样本匹配的负样本数量， $\gamma$ 为softmax的平滑因子，损失函数为累积概率，如下所示：
$\prod_{(Q, D^+)}P(D^+,|Q)=-\sum_{(Q,D^+)}logP(D^+,Q)$

而上述损失函数中其中一项具体展开可得：
在这里插入图片描述
可以看出，DSSM的损失函数类似于多个pairwise loss融合在一起的结果，比pairwise loss引入更多环境信息。

工程中损失函数

推荐系统中的DSSM双塔模型比较简单，即user和item各一个塔，而其损失函数是pointwise loss，即对每个样本进行损失计算，而非上述需要为正样本搭配一系列的负样本然后进行损失计算，而具体采用的是交叉熵损失计算，如下公式：
$-\sum_{u,i}[y_{u,i}log p(u,i)+(1-y_{u,i})log (1-p(u,i))]$
其中 $u$ 和 $i$ 代表的是user和item， $p (u, i)$ 代表的是user和item pair对属于正样本的概率， $y_{u,i}$ 代表的是user和item pair对的标签。

DSSM召回模型

样本构造

正样本：用户点击过的item
负样本：随机一批用户没有看过的资源+负反馈资源

训练过程

特征构造

User侧特征：用户播放历史、用户固有特征等
Item侧特征：Item的固有特征、全局统计特征等

损失函数构造

构造好User/Item侧特征并完成两侧塔计算后，得到user_embedding $x_i$ 和item_embedding $y_j$ ，计算向量内积：

$s(x_i, y_j) = \left \langle x_i, y_j \right \rangle$

计算softmax得到归一化概率值，其中 $M$ 为item的总量，其具体含义为一个正样本在一堆负样本中用户点击正样本的概率。

$p(y_i|x_i;\theta)=\frac{e^{s(x_i, y_i)}}{\sum_{j}e^{s(x_i, y_j)}}$

根据上文可知负样本的选择原则为在用户没看过的全局资源中选择一部分，这样就造成一些高热资源被选中的概率很高，因而需要打压这部分资源对整体结果造成的影响，因而从向量内积层面更改公式得到如下公式，其中 $p_j$ 代表的是样本在全局分布的概率。

$s^c(x_i, y_j) = \left \langle x_i, y_j \right \rangle - log(p_j)$

向量内积经过修正之后softmax归一化概率中的每一项为如下公式，从这一层面看出修正后的公式考虑到了资源在全局分布的概率。

$e^{s^c(x_i, y_j)}=\frac{e^{s(x_i, y_j) }}{p_j}$

修正后的最终概率值为：

$p^c(y_i|x_i;\theta)=\frac{e^{s^c(x_i, y_i)}}{\sum_{j}e^{s^c(x_i, y_j)}}$

如下为损失函数的公式，其中 $B$ 代表的是batch_size， $r_i$ 代表的是该点击样本的重要性，比如这个用户看了这个item时长越长 $r_i$ 越大。经过有限次迭代，模型训练完成。

$-\frac{1}{B}\sum r_i log(p^c(y_i|x_i;\theta))$

整体流程如下所示：在这里插入图片描述

线上数据

模型训练完成后，将所有User和Item的raw特征经过模型的inference得到对应的user_embedding和item_embedding，并通过ann计算得到每个User相似资源列表，并将这份数据推送至线上。

线上逻辑

根据userid直接获取线上数据中的相似资源列表，直接推荐。

参考链接

LightYoungLee

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
推荐系统（十一）DSSM双塔模型

前言工作上将DSSM baseline模型引入组内推荐系统，这里总结下，方便后续回顾。原理原理较为简单，这里不再赘述，主要原理见下图：损失函数原始损失函数首先queryQQQ和docDDD之间的相似度为，其中yQy_QyQ和yDy_DyD为query和doc的embedding：R(Q,D)=cos(yQ,yD)=yQTyDT∣∣yQ∣∣∣yD∣∣R(Q,D)=cos(y_Q, y_D)=\frac{y^T_Q y^T_D}{||y_Q|||y_D||}R(Q,D)=cos(yQ,yD
复制链接

扫一扫

专栏目录