基于Transformer的个性化推荐重排序模型解析

最新推荐文章于 2025-03-20 15:58:37 发布

猫咪薄荷

最新推荐文章于 2025-03-20 15:58:37 发布

阅读量943

点赞数 10

文章标签： transformer 深度学习人工智能算法推荐算法阿里云 python

本文链接：https://blog.csdn.net/m0_63345182/article/details/145458289

版权

摘要
本文详细解析阿里巴巴团队发表于2019年的论文《Personalized Re-ranking for Recommendation》。该论文提出了一种基于Transformer的个性化重排序模型（PRM），通过自注意力机制捕捉推荐列表中物品的全局关系，并结合预训练的个性化向量优化用户偏好建模。本文将从问题背景、模型创新、公式解析、实验验证等方面展开深入解读。

一、问题背景与动机

1.1 传统排序方法的局限性

在推荐系统中，排序（Ranking）是核心任务，其目标是根据用户偏好生成有序的物品列表。传统排序方法（如Learning to Rank）通过优化全局评分函数，对每个物品独立评分。然而，这种方法存在两个主要问题：

忽略物品间相互影响：列表中的物品可能存在互补或竞争关系，例如用户购买手机后可能更关注配件，但传统方法未显式建模这种关系。
缺乏个性化编码：不同用户对同一特征的敏感度不同（如价格敏感型用户与品牌偏好型用户），但传统方法使用全局统一的评分函数。

1.2 重排序（Re-ranking）的意义

重排序任务旨在对初始排序列表进行优化，通过建模物品间关系和用户个性化偏好，生成更优的推荐序列。早期方法（如RNN、LSTM）因序列编码距离衰减问题，难以捕捉长距离依赖，而Transformer的自注意力机制能够有效解决这一问题。

二、模型创新点

2.1 核心贡献

首次引入个性化重排序：在重排序任务中显式引入用户个性化信息，通过预训练的用户向量（PV）建模用户偏好。
基于Transformer的编码结构：利用自注意力机制捕捉物品间的全局依赖关系，避免RNN的序列衰减问题。
大规模电商数据集：公开了一个包含用户点击日志和特征的真实电商重排序数据集。
显著性能提升：离线和在线实验均显示，模型在点击率（CTR）和收入（GMV）等指标上优于基线方法。

三、模型架构与公式解析

3.1 整体架构

PRM模型分为三个部分：

输入层：融合物品特征、个性化向量（PV）和位置编码（PE）。
编码层：通过多层Transformer编码器建模物品间关系。
输出层：生成重排序得分并优化列表。

PRM模型架构

3.2 关键公式解析

公式1：传统排序损失函数

$\mathcal{L} = \sum_{r \in \mathcal{R}} \ell \left( \{ y_i, P(y_i | \boldsymbol{x}_i; \theta) | i \in \mathcal{I}_r \} \right)$

符号解释：
- $\mathcal{R}$ ：所有用户请求集合。
- $\mathcal{I}_r$ ：用户请求 $r$ 的候选物品集合。
- $\boldsymbol{x}_i$ ：物品 $i$ 的特征向量。
- $y_i$ ：物品 $i$ 的标签（如是否被点击）。
- $P(y_i | \boldsymbol{x}_i; \theta)$ ：排序模型预测的点击概率。
问题：未考虑物品间关系和用户个性化。

公式2：重排序损失函数

$\mathcal{L} = \sum_{r \in \mathcal{R}} \ell \left( \{ y_i, P(y_i | X, \boldsymbol{PV}; \hat{\theta}) | i \in \mathcal{S}_r \} \right)$

改进点：
- 输入为初始列表 $\mathcal{S}_r$ 的特征矩阵 $X$ 。
- 引入个性化矩阵 $\boldsymbol{PV}$ ，表示用户对物品交互的偏好。

公式3：输入层特征融合

$\boldsymbol{E}' = \begin{bmatrix} \boldsymbol{x}_{i_1} : \boldsymbol{PV}_{i_1} \\ \boldsymbol{x}_{i_2} : \boldsymbol{PV}_{i_2} \\ \ldots \\ \boldsymbol{x}_{i_n} : \boldsymbol{PV}_{i_n} \end{bmatrix}$

符号解释：
- $\boldsymbol{PV}_{i}$ ：物品 $i$ 对应的个性化向量，通过预训练模型生成。
- $\boldsymbol{x}_i$ ：物品 $i$ 的原始特征。
作用：将用户个性化信息与物品特征结合。

公式4：位置编码（Position Embedding）

$\boldsymbol{E}'' = \boldsymbol{E}' + \boldsymbol{PE}$

背景知识：Transformer本身不具备序列位置感知能力，需通过位置编码注入顺序信息。论文采用可学习的位置编码（PE），而非固定正弦函数。

公式6：自注意力机制

$\text{Attention}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}) = \text{softmax} \left( \frac{\boldsymbol{Q} \boldsymbol{K}^T}{\sqrt{d}} \right) \boldsymbol{V}$

符号解释：
- $\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}$ ：查询（Query）、键（Key）、值（Value）矩阵，由输入矩阵 $\boldsymbol{E}$ 投影得到。
- $d$ ：键向量的维度，用于缩放点积结果，防止梯度爆炸。
作用：计算物品间的注意力权重，捕捉全局依赖。