深度学习模型——双塔模型（Two-Tower Model）详解

最新推荐文章于 2025-03-03 06:09:06 发布

goTsHgo

最新推荐文章于 2025-03-03 06:09:06 发布

阅读量2.6k

点赞数 9

分类专栏：人工智能深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/goTsHgo/article/details/144259481

版权

人工智能同时被 2 个专栏收录

28 篇文章

订阅专栏

深度学习

6 篇文章

订阅专栏

双塔模型是一种高效、灵活的深度学习模型结构，广泛用于推荐系统和信息检索等场景中。其核心思想是分别为两个实体（如用户和物品、查询和文档）构建独立的特征表示网络（两座塔），并在共享语义空间中通过相似性计算匹配它们。

下面将详细解释双塔模型的原理、架构和代码实现，从底层原理到每一步的设计和原因。

1. 双塔模型的核心思想

1.1 为什么需要双塔模型？

高效计算：传统推荐算法需要动态计算用户和所有物品之间的关系，计算量巨大。双塔模型通过预计算物品向量，只需实时计算用户向量和匹配分数。
独立特征建模：用户和物品（或查询和文档）的特征可以独立处理，便于扩展和并行计算。
语义匹配：不仅依赖于表面特征，还能捕捉深层语义关系。

1.2 双塔模型的目标

学习一个共享语义空间，其中用户和物品的向量能够通过相似性度量（如余弦相似度）来反映它们的匹配程度。

2. 双塔模型的架构

双塔模型由以下几部分组成：

输入层：
- 用户特征塔接收用户特征（如年龄、历史行为等）。
- 物品特征塔接收物品特征（如类别、标签等）。
特征表示层：
- 每个塔单独对其输入特征进行编码，生成低维稠密向量（Embedding）。
- 用户塔和物品塔通常共享类似的网络结构。
匹配层：
- 在共享的语义空间中，通过相似性计算（如余弦相似度或点积）得到用户与物品的匹配分数。
损失函数：
- 常用对比损失（Contrastive Loss）或交叉熵损失，优化正样本匹配分数高、负样本匹配分数低的目标。

3. 模型的底层原理

3.1 输入层

用户特征：用户的静态属性（如性别、年龄）和动态行为（如点击的物品历史）。
物品特征：物品的静态属性（如类别、价格）和上下文特征（如时效性）。

示例：

用户特征：[性别=男, 年龄=25, 历史行为= [电影1, 电影2]]
物品特征：[类别=电影, 标签=动作, 热度=高]

3.2 特征表示

将用户和物品特征转化为向量表示（Embedding）。

公式：

$h_{u}=f_{user}(x_{u}),h_{v}=f_{item}(x_{v})$

其中：

$h_{u}$ ：用户的特征向量。
$h_{v}$ ：物品的特征向量。
$f_{user} , f_{item}$ ：用户塔和物品塔的神经网络。

3.3 匹配层

在共享空间中计算用户向量和物品向量的相似性，得到匹配分数：

$s(u,v) = \frac{h_{u} * h_{v} }{\left \| h_{u} \right \| * \left \| h_{v} \right \|} * cos(\theta )$

3.4 损失函数

常用对比学习损失（Contrastive Loss）：

$v^{+}$ ：正样本。
$v^{-}$ ：负样本集合。

4. 代码实现

以下代码实现双塔模型，并展示每一步的逻辑。

4.1 数据准备

模拟用户和物品特征的数据。

import numpy as np

# 用户特征：性别（0=女, 1=男）、年龄（18-60）、历史行为（物品ID）
user_features = np.array([
    [1, 25, 101],  # 用户1
    [0, 30, 102],  # 用户2
])

# 物品特征：类别（0=电影, 1=书籍）、热度（0-1）
item_features = np.array([
    [0, 0.8],  # 物品1
    [1, 0.5],  # 物品2
])

# 标签：用户是否喜欢该物品
labels = np.array([1, 0])  # 用户1喜欢物品1, 用户2不喜欢物品2

4.2 构建双塔模型

使用 TensorFlow/Keras 实现用户塔和物品塔。

import tensorflow as tf
from tensorflow.keras.layers import Input, Embedding, Dense, Flatten, Concatenate
from tensorflow.keras.models import Model

# 参数设置
embedding_dim = 8  # 嵌入维度

# 用户塔
user_input = Input(shape=(3,), name="user_input")  # 用户特征：性别、年龄、历史行为
user_embedding = Dense(embedding_dim, activation="relu")(user_input)  # 用户特征转向量

# 物品塔
item_input = Input(shape=(2,), name="item_input")  # 物品特征：类别、热度
item_embedding = Dense(embedding_dim, activation="relu")(item_input)  # 物品特征转向量

# 匹配层：余弦相似度
similarity = tf.keras.layers.Dot(axes=-1, normalize=True, name="cosine_similarity")(
    [user_embedding, item_embedding]
)

# 构建模型
model = Model(inputs=[user_input, item_input], outputs=similarity)
model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])

# 打印模型结构
model.summary()

4.3 模型训练

用用户—物品对的数据训练模型。

# 模型训练
model.fit(
    [user_features, item_features],  # 输入
    labels,                          # 标签
    epochs=10,
    batch_size=2
)

4.4 召回与匹配

利用训练好的双塔模型进行召回。

# 测试用户特征
test_user = np.array([[1, 28, 101]])  # 性别=男, 年龄=28, 历史行为=物品101

# 测试物品特征
test_items = np.array([
    [0, 0.9],  # 物品1
    [1, 0.7],  # 物品2
])

# 计算相似度
scores = model.predict([test_user, test_items])
print("测试用户与物品的匹配分数：", scores)