MLP4Rec：用于序列推荐的纯MLP架构

最新推荐文章于 2024-08-07 15:44:56 发布

78Erii

最新推荐文章于 2024-08-07 15:44:56 发布

阅读量660

点赞数

文章标签：人工智能

原文链接：https://arxiv.org/abs/2204.11510

版权

文章提出了MLP4Rec，一个针对序列推荐系统的框架，旨在解决自注意力机制的局限性。MLP4Rec利用MLP的线性计算复杂度和对顺序的敏感性，结合三向信息融合（时序、通道和特征）来捕捉用户行为模式和项目特征。实验表明，这种方法在性能和效率上都有所提升。

摘要由CSDN通过智能技术生成

Introduction

原文地址：https://arxiv.org/abs/2204.11510
发表会议：IJCAI-22

SRS要解决的问题：
精准地建模用户的时序行为对于推荐系统至关重要，最大的挑战是捕获用户对于item的动态序列模式，于是序列推荐系统孕育而生。

SRS的研究现状：
①自注意力机制（self-attention）在序列推荐系统（SRS）表现出SOTA的性能，原因是它通过一种位置编码的方式，捕获用户-项目交互数据中的序列依赖关系。
其潜在危害：
现有的自注意力对序列和位置采用两种异构的数据类型，这样会破坏项目编码（item embedding）的底层语义信息。
self-attention的计算复杂度是序列长度的二次型，计算成本高额。
合并后的各个self-attention包含大量参数——>难以优化，且容易过拟合。

②现有的工作认为序列依赖关系只存在于项目编码中，忽略了可能存在于item特征中（比如商品的品牌、类别）。

新的解决方案：近年的MLP(MLP-Mixer, gMLP and resMLP [Tolstikhin et al., 2021; Liu et al., 2021; Touvron et al., 2021])由于其架构简单，线性计算复杂度，在计算机视觉任务中表现出具有竞争力的性能。也许能够替代自注意力机制。

运用MLP解决SRS问题的优势在于：
①对item输入的顺序敏感，避免使用位置编码而破坏底层语义。
②在每一个维度上用纯MLP块进行线性计算，具有明显低于自注意力机制的参数量。
但是现有MLP的双向混合器，在捕获item编码的顺序依赖关系的同时，再以naive的方式去合并item的特征。

Framework

现有MLP的改进——MLP4Rec

三方向信息融合方案：

①sequential：时序信息，比如在一个序列Sn上的序列依赖关系
②cross-channel(维度)：在item编码下的用户的兴趣信息，这是因为一个item不同维度代表不同的语义信息
③cross-feature：特征间的相关性（品牌、类别）

（图1：现有MLP的双向混合模式和MLP4Rec的三向混合模式）
在这里插入图片描述
具体来说，MLP4Rec由L层组成，其中每一层都有相同的设置：一个序列混合器、一个通道混合器和一个特征混合器。所有L层共享相同的参数，以减少模型参数。每一层，首先对于每个特征，独立地应用序列混合器和通道混合器，最后再用一个特征混合器来学习所有特征之间的相关性。

变量定义

用户： $U = {u_1, ..., u_n..., u_N }$
项目： $I = {i_1, ..., i_m..., i_M }$
特征： ${q^m_1 , ..., q^m_k , ...q^m_K}$ $q^m_k$ 代表item m的第k个特征
序列： $Sn = {i_1, ..., i_t..., i_s}$

整体框架介绍

（图中Transpose表示对方向的转置，即将列变成行，行变成列）
在这里插入图片描述

基础信息编码

我们采用一种常用的方法来构建项目ID的embedding和特征的embedding：学习编码查找表，将离散的项目标识符(即id)和显式特征(例如，类别和品牌)投射到维度为C的密集向量表达中。

经过Embedding Layer之后，将项目id和显式特征叠加到单独的embedding表中，其中embedding表的行是每个显式特征，embedding表的列代表通道信息。

将所有的Feature*Channel表堆在一起——>得到了第三个方向序列，这样一来三个方向的embedding表就诞生了。

Sequence-Mixer

序列混合器本质上是一个MLP块。

输入：每个item编码向量的第c维度下，从1到s的序列，即{ $x^c_1，…x^c_t，…， x^c_s$ }（改变顺序，固定通道，固定特征）
注意，每个x都有一个额外的方向：特征。
输出：一个与输入具有相同维度的embedding表。
在这里插入图片描述
那么这些序列显示了用户兴趣随着时间的变化，从而使混合器对顺序敏感。

形式上的混合器第l层输出表示为：
$y_t = x_t + W^2\times g^l(W^1LayerNorm(x_t))$

t从1~s表示输入了s行向量，是g^l是l层的非线性激活函数
$W^1 ∈ R^{r_s×s}$ ，序列混合器的第一个线性全连接层的可学习参数， $r_s$ 是序列混频器的每一层的神经元数量（超参数）。
$W^2 ∈ R^{s×r_s}$ ，第二个全连接层的可学习参数。
同时用了归一化(LayerNorm)[Ba et al., 2016] 和残差连接[He等人，2016]，如MLP-mixer [Tolstikhin et al., 2021]。

Channel-Mixer 跨通道混合器

与Sequence-Mixer大体相似，主要区别是Channel-Mixer 学习embedding向量内的相关性。
item的ID或特征的embedding通常表达了每个维度上的一些潜在语义，了解它们的表示方式和内部相关性对于推荐同样至关重要。

输入：将时间步骤为t的item编码的维度作为输入向量，即{ $x^1_t，…x^c_t，…， x^C_t$ }中每个x都是输入，x长度为特征的数量**（固定顺序，改变维度/通道，固定特征）**
每个x之间的相关性是跨通道的，它们共同表达了embedding编码的整体语义。

跨通道混合器第l层的输出：
$y_c = x_c + W^4\times g^l(W^3LayerNorm(x_c))$
$x_c$ 是输入向量，它是时序t上的第c个维度。

Feature-Mixer 跨特征混合器

将学习特征关系这项任务放在最后一步的好处：由于feature-mixer是MLP4Rec中一层的最后一个MLP块，它不仅可以传递特征信息，还可以将每个特征之间的顺序依赖关系和跨通道依赖关系共享给其他特征，从而将三向信息连贯地连接起来。（其实改变顺序也没什么影响？）

输入：为item的第k个特征在其通道c处的编码向量，即{ $x^1_c，…x^k_c，…， x^K_c$ }（固定顺序，固定通道，改变特征）

跨特征混合器第l层的输出：
$y_k = x_k + W^6\times g^l(W^5LayerNorm(x_k))$

训练以及推测

交叉熵损失

$\sum_{S_n∈S} \sum_{t∈[1,...,s]}[log(σ(r_{i_t,t})) +\sum_{j not∈Sn}log(1 − σ(r_{i_j,t}))]$

σ：sigmoid激活函数
$r_{i_t,t}$ 表示在当前时间序列t下模型预测出来的与真实的item $i_t$ 之间的相似度。
$r_{i_j,t}$ 模型预测出来的与随机采样的item $i_j$ 之间的相似度，j是负抽样的项。
（原文： $r_{i_t,t}$ is model’s predicted similarity to ground-truth item $i_t$ , and $r_{i_j,t}$ is the predicted similarity to sampled items at timestep t, j is the negative sampled items）
S表示所有用户交互的序列集合。

推出下一个item

经过共L层的三个混合器后，得到一个隐藏状态的序列，其中融合了每个交互的顺序依赖性，跨信道依赖性和跨特征依赖性。
假设在时间步骤t，我们希望预测下一项 $i_{t+1}$ ，给定隐藏状态序列 $H = h_1，…， h_t$ ，我们可以通过点积计算 $h_t$ 与所有候选项 $E_m$ 之间的余弦相似度为:
$r_{m,t} = h_t · E^T_m$

$E_m ∈ R^{M×C}$ 是所有M个候选item的embedding，这些item的通道为C个。
$r_{m,t}$ 表示隐藏状态序列t与所有候选项的相似度，根据它们的相似度排列出靠前的预测item。

Experment

在这里插入图片描述
我们将两个数据集的最大序列长度设置为50，并对较短的序列进行尾部零填充。

SRS中常用的评价方法——即下一项预测。对于数据集拆分，预测任务使用交互序列中的最后一项作为测试集，倒数第二项作为验证集，其余的项将用作训练集。在常用的设置之后，我们在预测期间将100个负样本与真实项配对[Kang和McAuley, 2018]。

Metrics. 命中率(HR)，归一化折现累积增益(NDCG)，平均倒数排名(MRR)。

baselines:
PopRec, BPR [Rendle et al., 2009],
FPMC [Rendle et al., 2010],
GRU4Rec [Hidasi et al.,2015],
GRU4Rec+ [Hidasi et al.,2016],
SASRec and SASRec+ [Kang and McAuley, 2018],
BERT4Rec [Sun et al., 2019],
FDSA [Zhang et al., 2019],
MLP-Mixer+[Tolstikhin et al., 2021].
注意，上标“+”表示我们改进了原始模型，该模型将项目ID和特征的embedding连接作为输入，从而实现与MLP4Rec的公平比较。

比较结果
在这里插入图片描述