双塔召回模型的前世今生

双塔召回模型源于电商和推荐系统的高效召回需求,通过user和item特征独立输入DNN得到embedding,然后用cosine相似度计算匹配度。离线构建embedding并利用ANN进行近邻检索,解决大规模候选召回问题。模型中,归一化和temperature调整有助于优化训练和效果。负样本的采样策略,如in-batch采样和混合采样,是召回模型中的关键优化点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

双塔的诞生

首先来看一下经典的精排模型DIN(Deep Interest Network for Click-Through Rate Prediction),通过user历史行为序列和目标item依次算权重得到用户的兴趣表征,并和user、item、context等特征拼接过DNN计算loss。

这种复杂的精排模型在线上serving时需同时输入user+item特征得到最终的预估值,速度很慢,一般只能支持百、千级别的候选。

可是召回的候选巨大,像淘宝、抖音等场景召回候选量级是千万乃至亿级别,上述模型显然是难以招架,需要牺牲精度换取延迟,最简单的想法便是:不要线上对所有候选均过图预估一遍,最好能将一部分结果离线提前算好

于是双塔模型闪亮登场,结构非常简单,但是却能对海量候选进行召回

  • user和item特征分别单独输入DNN,得到user embedding与item embedding

  • 将最后一层embedding计算cosine(下文会详细介绍为什么要用余弦距离)得到logit

logit代表user&item之间的匹配程度,比较经典的双塔DSSM(Deep Structured Semantic Models)结构如下,这里的query便是推荐场景的user

 

那么可能有人会疑惑:双塔模型也是神经网络啊,为什么速度就会快很多呢?

离线构图+近邻检索=海量候选实时召回

精排模型之所以慢,是因为对于所有的候选item都要实时过图;而双塔之所以快,当然不只是因为模型结构简单了,而是因为中间结果可以离线提前算好,并且通过高效的检索实现精度和效率的平衡。

首先我们先理清楚一件事:

  • item侧的embedding需要实时算吗?

  • 每个用户访问,都需要对item算一次e

### 双塔召回 DSSM 模型代码实现 #### 构建双塔结构的DSSM模型 为了构建一个有效的双塔DSSM模型,通常会分别设计两个独立的子网络来处理输入的不同部分——例如用户的查询和文档的内容。这两个子网共享相同的架构但是参数不共享。 ```python import tensorflow as tf from tensorflow.keras import layers, models def create_tower(input_shape): inputs = layers.Input(shape=(input_shape,)) x = layers.Dense(128, activation='relu')(inputs) x = layers.BatchNormalization()(x) x = layers.Dropout(0.2)(x) x = layers.Dense(64, activation='relu')(x) embeddings = layers.Lambda(lambda t: tf.math.l2_normalize(t, axis=1))(x) model = models.Model(inputs=inputs, outputs=embeddings) return model query_input = layers.Input(name="query", shape=(None,), dtype=tf.string) doc_input = layers.Input(name="document", shape=(None,), dtype=tf.string) # Text preprocessing layer (for simplicity we use a simple embedding here instead of complex NLP pipeline) embedding_layer = layers.TextVectorization(max_tokens=10000, output_mode='int', output_sequence_length=50) query_embeddings = create_tower(embedding_layer(query_input).shape[1])(embedding_layer(query_input)) doc_embeddings = create_tower(embedding_layer(doc_input).shape[1])(embedding_layer(doc_input)) dot_product = layers.Dot(axes=[1, 1], normalize=False)([query_embeddings, doc_embeddings]) output = layers.Activation('sigmoid')(dot_product) dssm_model = models.Model([query_input, doc_input], output) dssm_model.compile(optimizer='adam', loss='binary_crossentropy') ``` 这段代码定义了一个简单的双塔DSSM框架[^3]。这里假设输入为字符串形式的文本数据,并通过`TextVectorization`层进行了初步的文字编码转换;实际应用中可能需要更复杂的自然语言预处理流程。最后两行创建并编译了整个Keras模型实例。 #### 训练过程概述 训练这样的模型涉及准备配对的数据集,其中每一对包含一条查询及其对应的文档以及标签指示它们之间的关联程度。损失函数一般选择二元交叉熵,因为目标是预测给定查询下某个特定文档的相关性概率。 #### 应用场景说明 此类型的模型广泛应用于搜索引擎、广告推荐等领域,在这些场合它能够帮助快速筛选出大量潜在相关项供后续精排阶段进一步评估[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值