TransFM：基于因子分解机的序列推荐方法

智能推荐系统

于 2019-09-06 20:03:17 发布

阅读量1.1k

点赞数 2

▌概述

今天解读的论文是由 Rajiv Pasricha 和 Julian McAuley 两位大佬提出的发表在 RecSys18 上的，是 TransRec 和 FM 的结合版本。论文下载地址：

https://cseweb.ucsd.edu/~jmcauley/pdfs/recsys18a.pdf

在下面会简单介绍 TransRec 和 FM。

对于电商网站（如亚马逊），媒体网站（如 Netflix，Youtube）等而言，推荐系统是其中至关重要的一环。传统的推荐方法尝试对用户和物品的全局交互进行建模。例如矩阵分解和其派生模型，虽然能够有效的捕获到用户的偏好，但是未考虑到时序特征，其忽略了用户的最近交互行为，提供了一个静态的推荐列表。

序列推荐的目的是基于用户的历史行为序列去预测用户将来的行为。Julian McAuley 作为主要作者的另一篇论文 ( Translation-based Recommendation ) 提出了“翻译”空间的概念，将物品作为一个点嵌入到“翻译”空间内，用户的序列行为则作为一个翻译向量存在于该空间，然后通过距离计算便根据用户 u 的当前行为物品 i，预测其接下来可能有行为的物品，具体可参考：

序列推荐模型 TransRec

TransRec 的主要思路如下图所示：

640?wx_fmt=png

本论文中提出了 TransFM，其结合了 FM 和 TransRec 的思想，将其应用在序列推荐中，这样做的好处是使用简单的模型对复杂的交互之间进行建模并能取得不错的效果。

FM 能够对任意的实值特征向量进行操作，并通过参数分解对特征之间的高阶交互进行建模。他可以应用在一般的预测任务里，并可以通过特征替换，取代常见的推荐算法模型。

TransFM 的主要思路如下图所示：

640?wx_fmt=png

TransFM 是对所有观察到的行为之间可能的交互进行建模，对于每一个特征 i，模型学习到两部分：一个低维的 embedding 向量 640?wx_fmt=jpeg 和一个翻译向量特征之间的交互强度使用平方欧几里德距离来进行计算，在上图中，展示了 user，item，time 的 embedding 特征和翻译向量，交互行为之间的权重由起始点和结束点之间的平方欧几里德距离进行计算。与 FM 一样，TransFM 可以在参数和特征纬度的线性时间内进行计算，从而有效的实现大规模数据集的计算。

▌相关研究

1. 序列推荐

已经存在了许多基于 MC ( 马尔可夫链，Markov Chains ) 的序列推荐模型，比如 FPMC ( Factorized Personalized Markov Chains )，使用独立分解矩阵对三阶交互行为进行分解，继而来模拟成对的相互作用。PRME 使用欧几里德距离替换内积对用户-物品之间的交互行为进行建模。TransRec 同样也是一个序列推荐模型，通过共享物品的 embedding 向量空间，将用户行为转化为翻译向量，其计算公式如下：

640?wx_fmt=jpeg

这些对于给定的用户历史行为序列十分有效，但是在不改变模型结构的前提下，并不能捕获时间，地理和其他的上下文特征。

2. 因子分解机

FM 对于任意的机器学习任务来讲是一个通用的学习框架，他模型任意任意特征之间的二阶交互，并很容易扩展到更高阶，每个特征的交互通过参数之间的内积来权衡。其公式如下 ( 这里讨论的是 FM 的二阶形式 )：

640?wx_fmt=jpeg

通过选择合适的损失函数，FM 可以应用在任意的分类，回归或者排序任务中，在这篇文章里主要是针对隐式反馈结合 BPR 算法框架去优化预测的结果。

3. 混合推荐

混合推荐结合了协同和 conetnt-based，目的在于提升效果并且为行为很较少的用户提供有效的选择，在一定程度上缓解了用户冷启动。这里可以利用的潜在的信息包括：时间特征，地理特征，社交特征等。最近的一些关于混合推荐的工作结合了图像特征，或者是使用深度学习自动生成有用的内容特征。

虽然这些方法都取得了不错的表现，但依赖于专门的模型和技术。相比之间，论文里提出的 TransFM 是一种更广义的办法，可以对任意的特征向量和预测任务进行操作，通过适当的特征工程，TransFM 模型可以结合时间，地理，人口统计和其他内容特征，而无需更改模型本身结构。

▌TransFM 模型

1. 问题定义

640?wx_fmt=jpeg

TransFM 使用平方欧几里德距离替换 FM 中的内积计算，并用 embedding 向量和翻译向量之和表示特征 v_i 的向量，其公式如下：

640?wx_fmt=jpeg

其中距离计算方式为：

640?wx_fmt=jpeg

使用平方欧几里德距离替换内积的好处是：提高模型的泛化能力，更有效的捕获 embedding 之间的传递性。比如 (a,b)，(b,c) 之间有很高的交互权重，那么 (a,c) 之间的相关性也会更强。

下图展示了 TransFM 和其他几种算法的预测方法，从中可以看出 PRME 学习的是两个用户的 embedding 向量之间的距离，FM 学习的是任意特征与相应参数之间的内积，TransRec 学习的是物品的 embedding 向量和用户行为的翻译序列，TransFM 学习的是每个特征的 embedding 向量和翻译向量，使用平方欧几里德距离去度量特征之间的交互。

640?wx_fmt=jpeg