双塔的诞生
首先来看一下经典的精排模型DIN(Deep Interest Network for Click-Through Rate Prediction),通过user历史行为序列和目标item依次算权重得到用户的兴趣表征,并和user、item、context等特征拼接过DNN计算loss。
这种复杂的精排模型在线上serving时需同时输入user+item特征得到最终的预估值,速度很慢,一般只能支持百、千级别的候选。
可是召回的候选巨大,像淘宝、抖音等场景召回候选量级是千万乃至亿级别,上述模型显然是难以招架,需要牺牲精度换取延迟,最简单的想法便是:不要线上对所有候选均过图预估一遍,最好能将一部分结果离线提前算好
于是双塔模型闪亮登场,结构非常简单,但是却能对海量候选进行召回
-
user和item特征分别单独输入DNN,得到user embedding与item embedding
-
将最后一层embedding计算cosine(下文会详细介绍为什么要用余弦距离)得到logit
logit代表user&item之间的匹配程度,比较经典的双塔DSSM(Deep Structured Semantic Models)结构如下,这里的query便是推荐场景的user
那么可能有人会疑惑:双塔模型也是神经网络啊,为什么速度就会快很多呢?
离线构图+近邻检索=海量候选实时召回
精排模型之所以慢,是因为对于所有的候选item都要实时过图;而双塔之所以快,当然不只是因为模型结构简单了,而是因为中间结果可以离线提前算好,并且通过高效的检索实现精度和效率的平衡。
首先我们先理清楚一件事:
-
item侧的embedding需要实时算吗?
-
每个用户访问,都需要对item算一次e