【双塔模型DSSM】的原理与实现

HelloNettt

已于 2023-09-25 15:09:27 修改

阅读量1.8k

点赞数 1

文章标签：推荐算法

于 2023-09-25 14:45:03 首次发布

本文链接：https://blog.csdn.net/qq_41502322/article/details/133172351

版权

本文介绍了DSSM模型的双塔结构，区分了召回和粗排两种场景，详细阐述了样本准备、模型特征、loss函数的选择以及线上部署策略，强调了特征融合和分离的不同点，并讨论了负样本采样的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

简介
1 双塔模型的召回结构
2 双塔模型的粗排结构
参考文章

简介

DSSM 模型总的来说可以分成三层结构，分别是输入层、表示层和匹配层。双塔结构如下图所示：
在这里插入图片描述

DSSM的训练方式

Pointwise：独立看待每一个正样本、负样本，做简单的二元分类。
Pairwise：每次取一个正样本，一个负样本。
（1）第1种loss：Triplet Hinge Loss

（2）第2种loss：Triplet Logistic Loss，这里 $\sigma$ 是控制loss函数形状的超参数。
Listwise：每次取一个正样本，多个负样本。

这里 $s$ 表示softmax输出的预测值， $y$ 表示正负样本的标签。

1 双塔模型的召回结构

召回模型一般是特征后融合。
在这里插入图片描述

一个被实践的召回模型的实例：
在这里插入图片描述
如图所示，其中：

$x$ 为（user，上下文）的特征， $y$ 为（item）的特征；
$u (x)$ 表示（user，上下文）最终的Embedding向量表示， $v (y)$ 表示（item）最终的Embedding向量表示；
$< u (x), v (y) >$ 表示（user，上下文）和（item）的余弦相似度（或者点积），如下式。
$\frac{u^T v}{||u||\; ||v||}$

在推荐系统中，一般左侧为User Tower，右侧为Item Tower，因此称之为双塔模型。

优点：

该结构对工业界非常友好，两个子网络产生的embedding向量可以独自获取以及缓存；
两个塔可以分别对user和item建模，可拓展性强，使用灵活。

缺点：

该结构进行的是特征后融合，即user和item仅在最后softmax才产生交互

1.1 样本准备

用户链路：曝光-点击-下载-购买。
正样本：曝光&&下载

负样本为什么不能是曝光&&未下载？
如果只是曝光未下载当做负样本的话，那训练样本分布就和精排无异了，但实际上精排的样本是经过召回粗排等层层筛选过的，而召回面对的是庞大的物料库。所以，如果只是用曝光未下载当做负样本那线上线下的的样本分布就不一致了。

负样本如何选择？
（1）随机采样物料库作为负样本
大部分实验采用随机采样物料库作为负样本。这样能保证召回模型中存在不同的物料。
（2）参考word2vec中的负采样方法
采样概率应该与物料出现频率相关。当高频物料作正样本时，要降采样；当高频物料作负样本时，要适当过采样。这样可以抵消高频物料对正样本集的绑架，同时也保证低频物料在负样本集的出现机会。
（3）在batch内随机采样
考虑工程复杂度，这是工程实现中最常用的方案。
针对每条正样本，在每个batch内采样m个负样本。