Neural Collaborative Filtering∗

Swee1

于 2024-12-16 18:40:28 发布

阅读量1.1k

点赞数 28

分类专栏：推荐系统协同过滤文章标签： python

本文链接：https://blog.csdn.net/m0_52545077/article/details/144511962

版权

推荐系统同时被 2 个专栏收录

16 篇文章

订阅专栏

协同过滤

1 篇文章

订阅专栏

ABSTRACT

1.研究背景
近年来，深度神经网络在语音识别、计算机视觉和自然语言处理方面取得了巨大成功，但在推荐系统中的应用研究相对较少。
文中旨在基于神经网络开发技术来解决基于隐式反馈的协同过滤推荐问题。
2.现有方法的不足
虽然一些推荐工作已经使用深度学习，但主要用于对项目的辅助信息（如项目的文本描述、音乐的声学特征）进行建模。
在对协同过滤的关键因素（用户和项目特征之间的交互）进行建模时，仍然依赖矩阵分解，并对用户和项目的潜在特征应用内积。
3.提出的方法（NCF）
通过用能够从数据中学习任意函数的神经架构取代内积，提出了一个名为 NCF（基于神经网络的协同过滤）的通用框架。
NCF 是通用的，可以在其框架下表达和推广矩阵分解。
为了增强 NCF 建模的非线性，提议利用多层感知器来学习用户 - 项目交互函数。
4.实验结果
在两个真实数据集上的大量实验表明，所提出的 NCF 框架比现有最佳方法有显著改进。
经验证据表明，使用更深层次的神经网络可以提供更好的推荐性能。
Keywords
Collaborative Filtering, Neural Networks, Deep Learning, Matrix Factorization, Implicit Feedback

1. INTRODUCTION

推荐系统的重要性与协同过滤概念
信息时代背景下的推荐系统：
在如今信息爆炸的时代，信息过载成为一大问题，而推荐系统起着至关重要的作用，它能帮助用户从海量信息中筛选出可能感兴趣的内容，因此被电商、在线新闻以及社交媒体等众多在线服务广泛应用。
协同过滤的核心定义：
个性化推荐系统的核心在于协同过滤，也就是基于用户过往与物品的交互行为（像评分、点击等操作）来对用户关于物品的偏好进行建模。通过这种方式，系统可以找到具有相似偏好的用户群体或者相似的物品，进而为用户提供个性化的推荐内容。
矩阵分解（MF）在协同过滤中的情况
MF 的基本原理：
在各种各样的协同过滤技术里，矩阵分解（MF）是最为流行的一种。它的做法是将用户和物品都投射到一个共享的潜在空间中，使用一个潜在特征向量分别去表示一个用户或者一个物品。然后，把用户针对某一物品的交互情况建模成他们对应潜在向量的内积形式。例如，在一个用户 - 物品评分矩阵中，通过矩阵分解得到用户和物品的潜在向量，用这些向量的内积来预估用户对未评分物品的评分情况等。
MF 的发展与应用现状：
由于 Netflix Prize 的推动，MF 已经成为了基于潜在因子模型进行推荐的事实上的标准做法。并且，大量的研究精力都投入到了对 MF 的增强改进上，比如把它和基于邻居的模型进行整合，使其与物品内容的主题模型相结合，或者将其扩展为因子分解机以实现对特征更通用的建模等，以此来进一步提升 MF 在推荐方面的性能表现。
MF 的局限性与深度神经网络应用的探索
MF 内积交互函数的局限：
尽管 MF 在协同过滤中有着不错的有效性，但大家也都清楚，它的性能会受到其交互函数（也就是简单的内积方式）选择的限制。以显式反馈（如用户直接给出的评分）中的评分预测任务为例，仅仅是在交互函数里加入用户和物品的偏差项，就能提升 MF 模型的性能。虽说这看似只是对内积算子的一个小调整，但这恰恰表明了为建模用户和物品之间潜在特征交互去设计一个更好、更具针对性的交互函数是能带来积极效果的。因为内积只是简单地将潜在特征进行线性相乘组合，对于捕捉复杂的用户交互数据结构来说，能力是不够的。
深度神经网络的优势与应用现状：
神经网络已被证明能够逼近任意连续函数，尤其是近年来深度神经网络（DNNs）在诸多领域（如计算机视觉、语音识别、文本处理等）都展现出了很好的效果。然而，相较于数量众多的关于 MF 方法的研究文献，将 DNNs 应用于推荐领域的相关工作还比较少。虽然近期一些研究进展已经把 DNNs 应用到了推荐任务中，并且也取得了不错的成果，但大多是用 DNNs 对物品的辅助信息（像物品的文本描述、音乐的音频特征、图像的视觉内容等）进行建模，而在对协同过滤的关键核心作用（也就是用户和物品潜在特征交互）进行建模时，依旧还是依赖 MF，通过内积去结合用户和物品的潜在特征。
本文的研究聚焦与主要贡献
聚焦隐式反馈及挑战：
本文着重关注隐式反馈，隐式反馈是通过用户观看视频、购买产品、点击物品等行为间接反映出用户对物品的偏好。与显式反馈（如用户主动给出的评分和评论）相比，隐式反馈对于内容提供者来说更容易自动追踪收集，不过它利用起来难度更大，因为没办法直接观察到用户的满意度，而且天然就缺少负面反馈信息，数据中存在较多噪声等情况，这就使得对其建模分析更具挑战性。
主要贡献：
**提出神经网络架构与 NCF 框架：**本文提出了一种神经网络架构用于对用户和物品的潜在特征进行建模，并且在此基础上设计了一个基于神经网络的协同过滤通用框架，即 NCF。这个框架旨在摆脱以往依赖简单内积的方式，更好地挖掘用户和物品潜在特征之间的复杂关系，以提升推荐效果。
关联 MF 与 NCF 并引入非线性：论证了矩阵分解（MF）可以被看作是 NCF 的一种特殊形式，也就是可以将 MF 纳入到 NCF 的体系当中进行理解。同时，利用多层感知器来为 NCF 的建模过程赋予较高程度的非线性特性，使模型能够更好地拟合复杂的用户 - 物品交互数据，挖掘其中更隐晦、非线性的关系，进一步增强推荐系统对用户偏好建模的能力。
实验验证有效性：在两个真实世界的数据集上开展了大量的实验，通过实验结果来有力地证明所提出的 NCF 方法是有效的，同时也展示了深度学习应用于协同过滤领域的良好前景，为后续相关研究和实际应用提供了有价值的参考依据，鼓励更多在该方向上利用深度神经网络进行推荐系统优化的探索。

2. PRELIMINARIES

我们首先将问题形式化，并讨论针对带有隐式反馈的协同过滤的现有解决方案。然后，我们简要回顾广泛使用的矩阵分解模型，着重指出其因使用内积而导致的局限性。

2.1 Learning from Implicit Data

一、用户 - 项目交互矩阵
1.定义与构成
二、隐式反馈数据
特性：噪声信号
隐式反馈数据源于用户间接行为，如网页点击、浏览时长等。这些行为虽暗示用户兴趣，但因数据收集和用户行为复杂性，存在不确定性，像误点击或短暂浏览非真心喜爱内容等情况，导致数据如同混入噪声，不能精准反映用户偏好。
挑战：缺乏负面反馈
隐式反馈数据难以直接获取用户明确不喜欢项目的信息。例如在音乐平台只能知晓用户听过哪些歌曲，却不易知道其讨厌哪些歌曲，这使模型在学习用户完整偏好时缺失关键信息，增加了准确判断用户兴趣程度和进行个性化推荐的难度。
在这里插入图片描述
五、NCF 框架
NCF 框架使用神经网络对交互函数 $f$ 进行参数化，可自然支持逐点和成对学习，为解决隐式反馈下的推荐问题提供新途径，有望提升推荐的准确性与效果。

2.2 Matrix Factorization

在这里插入图片描述
图 1：一个示例说明了矩阵分解（MF）的局限性。从数据矩阵（a）来看，用户 4（u4）与用户 1（u1）最为相似，其次是用户 3（u3），最后是用户 2（u2）。然而，在潜在空间（b）中，若将用户 4 的潜在向量（p4）放置得离用户 1 的潜在向量（p1）最近，会使得用户 4 的潜在向量（p4）相较于用户 3 的潜在向量（p3）更靠近用户 2 的潜在向量（p2），从而导致较大的排名损失。
在这里插入图片描述

3. NEURAL COLLABORATIVE FILTERING

我们首先提出通用的神经协同过滤（NCF）框架，详细阐述如何利用一个强调隐式数据二元属性的概率模型来学习 NCF。接着，我们展示矩阵分解（MF）可以在 NCF 框架下进行表达和推广。为了探索深度神经网络（DNNs）在协同过滤方面的应用，我们随后提出了 NCF 的一个实例化方案，即使用多层感知器（MLP）来学习用户 - 项目交互函数。最后，我们提出了一种新的神经矩阵分解模型，它在 NCF 框架下将矩阵分解（MF）和多层感知器（MLP）进行集成；该模型融合了 MF 的线性优势以及 MLP 的非线性优势，用于对用户 - 项目潜在结构进行建模。

3.1 General Framework

在这里插入图片描述

3.1.1 Learning NCF
1.基于平方损失的逐点方法

2.概率方法

对于负样本实例集合 $Y^-$ ，我们在每次迭代中从那些未被观察到的交互数据中进行均匀采样，并根据已观察到的交互数量来控制采样比例。尽管一种非均匀采样策略（例如，基于项目流行度偏置的采样策略 [14, 12]）可能会进一步提升性能，但我们将对其的探索留作未来的工作内容。

3.2 Generalized Matrix Factorization (GMF)

在这里插入图片描述

3.3 Multi-Layer Perceptron (MLP)

1.NCF 框架下的特征合并与交互处理
在 NCF 采用两条路径对用户和项目进行建模时，很自然地想到通过连接（concatenate）它们的特征。然而，简单的向量连接没有考虑用户和项目潜在特征之间的交互，不足以对协同过滤效果进行建模。
为解决这个问题，文中提出在连接后的向量上添加多层（add hidden layers），使用标准的多层感知机（MLP）来学习用户和项目潜在特征之间的交互。这样可以赋予模型很大的灵活性和非线性来学习 $p_u$ 和 $q_i$ 之间的交互，而不像广义矩阵分解（GMF）那样只使用固定的元素级乘积。
具体地，在 NCF 框架下的 MLP 模型定义如下：
在这里插入图片描述

3.网络结构设计
对于网络结构的设计，常见的解决方案是采用塔式模式，即底层最宽，每层的神经元数量逐层减少（如图 2 所示）。其前提是通过在高层使用较少的隐藏单元，它们可以学习到数据更抽象的特征。文中通过实验实现了这种塔式结构，逐层减少每层的大小。
在这里插入图片描述

3.4 Fusion of GMF and MLP

1.融合动机
文中提到已经开发了 NCF 的两种实例化模型：GMF（采用线性核来对潜在特征交互进行建模）和 MLP（使用非线性核从数据中学习交互函数）。
提出的问题是：如何在 NCF 框架下融合 GMF 和 MLP，使它们能够相互增强，从而更好地对复杂的用户 - 项目交互进行建模？
2.初步融合方案及其局限性
一种直接的解决方案是让 GMF 和 MLP 共享相同的嵌入层，并结合它们的交互函数输出。这种方式与著名的神经张量网络（NTN）有相似的思路。
具体来说，将 GMF 与一层 MLP 相结合的模型可以表述为：
在这里插入图片描述
然而，共享 GMF 和 MLP 的嵌入层可能会限制融合模型的性能。例如，这意味着 GMF 和 MLP 必须使用相同大小的嵌入，对于两种模型的最优嵌入大小差异较大的数据集，这种解决方案可能无法获得最优的集成效果。
3.提出的融合模型（NeuMF）
为了给融合模型提供更多的灵活性，允许 GMF 和 MLP 学习独立的嵌入，并通过连接它们的最后一个隐藏层来组合这两个模型。
在这里插入图片描述
具体公式如下
3.4.1 Pre-training

基于梯度的优化方法的局限性
问题阐述
由于 NeuMF 目标函数的非凸性，基于梯度的优化方法只能找到局部最优解。
初始化对于深度学习模型的收敛和性能起着重要作用。
背景知识
在深度学习中，许多目标函数是非凸的，这意味着存在多个局部最小值。基于梯度的优化方法（如随机梯度下降，SGD）在这种非凸函数上，很可能陷入局部最优解，而无法找到全局最优解。初始化的好坏会直接影响模型最终收敛到的解的质量。
NeuMF 模型的初始化方法
问题阐述
提出使用预训练的 GMF 和 MLP 模型来初始化 NeuMF。
具体操作是先随机初始化训练 GMF 和 MLP 直到收敛，然后将它们的模型参数作为 NeuMF 相应部分的初始化参数。
背景知识
预训练模型是一种在大规模数据上进行训练得到的模型。利用预训练模型的参数来初始化新模型，可以让新模型在训练初期就处于一个较优的状态，有助于更快地收敛到较好的解。在 NeuMF 中，GMF 和 MLP 是两个组成部分，通过这种方式初始化可以利用它们在单独训练时学到的知识。
训练方法
问题阐述
对于从零开始训练 GMF 和 MLP，采用自适应矩估计（Adam）方法，该方法可以为每个参数自适应地调整学习率，对频繁出现的参数进行较小更新，对不频繁出现的参数进行较大更新。
在将预训练参数输入到 NeuMF 后，使用普通 SGD 而不是 Adam 进行优化，因为 Adam 需要保存动量信息来正确更新参数，而在使用预训练模型参数初始化 NeuMF 时没有保存动量信息，不适合用基于动量的方法进一步优化。
背景知识
Adam 是一种常用的优化算法，结合了动量和自适应学习率的优点，可以加速模型的收敛。而普通 SGD 没有考虑动量，每次更新只基于当前的梯度信息。在模型已经使用预训练参数初始化的情况下，使用 SGD 可以避免因没有动量信息而导致的问题。

4. EXPERIMENTS

在本节中，我们开展实验，旨在回答以下研究问题：
研究问题 1：我们所提出的神经协同过滤（NCF）方法是否优于最先进的隐式协同过滤方法？
研究问题 2：我们所提出的优化框架（带有负采样的对数损失）对推荐任务的效果如何？
研究问题 3：隐藏单元的更深层结构是否有助于从用户 - 项目交互数据中学习？
接下来，我们首先介绍实验设置，随后对上述三个研究问题进行解答。

4.1 Experimental Settings

在这里插入图片描述
使用了两个公开可用的数据集：MovieLens 和 Pinterest，并指出这两个数据集的特征在表 1 中进行了总结
1. 数据集（Datasets）
MovieLens：这是一个电影评分数据集，常用于评估协同过滤算法。文中使用了包含一百万条评分的版本，且每个用户至少有 20 条评分。虽然它是显式反馈数据，但为了研究从显式反馈的隐式信号中学习的性能，将其转换为隐式数据，即每条记录标记为 0 或 1，表示用户是否对项目进行了评分。
Pinterest：这是一个隐式反馈数据，用于评估基于内容的图像推荐。原始数据很大但非常稀疏，为了便于评估协同过滤算法，像处理 MovieLens 数据一样进行过滤，只保留至少有 20 次交互（pins）的用户。这样得到的数据子集包含 55,187 个用户和 1,500,809 次交互。
2. 评估协议（Evaluation Protocols）
采用 “留一法”（leave - one - out）评估项目推荐的性能。对于每个用户，将其最新的交互作为测试集，其余数据用于训练。由于对每个用户的所有项目进行排名非常耗时，所以随机采样 100 个用户未交互的项目，在这 100 个项目中对测试项目进行排名。
使用命中率（Hit Ratio，HR）和归一化折损累计增益（Normalized Discounted Cumulative Gain，NDCG）来评估排名列表的性能。将排名列表截断为 10，HR 直观地衡量测试项目是否在排名前 10 的列表中，NDCG 通过对排名靠前的命中项赋予更高分数来考虑命中位置。
3. 基准方法（Baselines）
ItemPop：根据项目的交互次数（受欢迎程度）对项目进行排名，这是一种非个性化的推荐方法。
ItemKNN：标准的基于项目的协同过滤方法，文中按照 [19] 中的设置进行调整以适应隐式数据。
BPR：这种方法通过成对排名损失优化矩阵分解（MF）模型，适用于从隐式反馈中学习，文中使用固定的学习率并报告最佳性能。
eALS：这是一种用于项目推荐的先进的 MF 方法，对未观察到的交互进行负例处理，并根据项目流行度进行非均匀加权。
4. 参数设置（Parameter Settings）
基于 Keras 实现所提出的方法。对于神经协同过滤（NCF）方法的超参数确定，随机采样一次交互作为每个用户的验证数据，并在其上调整超参数。
所有 NCF 模型通过优化公式 7 中的对数损失进行学习，每个正例采样四个负例。对于从头开始训练的 NCF 模型，用高斯分布（均值为 0，标准差为 0.01）随机初始化模型参数，使用小批量 Adam 优化模型。测试了不同的批量大小和学习率，并评估不同的预测因子数量。对于多层感知机（MLP）采用三层隐藏层，对于预训练的 NeuMF，设置 α 为 0.5，使预训练的 GMF 和 MLP 对 NeuMF 的初始化贡献相等。

4.2 Performance Comparison (RQ1)

在这里插入图片描述
图 4（Figure 4）
1;.内容
图 4 展示了不同预测因子数量下 HR@10（命中率 @10）和 NDCG@10（归一化折损累计增益 @10）的性能。
对于矩阵分解（MF）方法 BPR 和 eALS，预测因子数量等于潜在因子数量。对于 ItemKNN，测试了不同邻居大小并报告了最佳性能。由于 ItemPop 性能较弱，图 4 中未展示其结果，以突出个性化方法的性能差异。
2.结果分析
NeuMF 在两个数据集上都取得了最佳性能，显著优于 eALS 和 BPR。在平均水平上，相对于 eALS 和 BPR 的性能提升分别为 4.5% 和 4.9%。对于 Pinterest 数据集，即使预测因子为 8，NeuMF 也比 eALS 和 BPR 性能好得多（好 64 倍），这表明 NeuMF 通过融合线性矩阵分解（MF）和非线性多层感知机（MLP）模型具有高表达能力。
另外两种 NCF 方法 GMF 和 MLP 也有较强的性能。其中，MLP 稍逊于 GMF。注意，MLP 可以通过增加更多隐藏层来改进（见 4.4 节），这里只展示了三层的性能。对于小的预测因子，GMF 在两个数据集上都优于 eALS；尽管 GMF 在大因子时会过拟合，但其最佳性能优于或与 eALS 相当。最后，GMF 比 BPR 有持续的改进，这表明用于推荐任务的分类感知对数损失的有效性，因为 GMF 和 BPR 学习相同的 MF 模型但目标函数不同。
图 5（Figure 5）
1.内容
图 5 展示了排名位置 K 从 1 到 10 的 Top - K 推荐列表的性能。为了使图更清晰，只展示了 NeuMF 的性能，而不是所有 NCF 方法。
2.结果分析
可以看到，NeuMF 在不同排名位置上都比其他方法有持续的改进，并且进行了单样本配对 t 检验，验证了所有改进在 $p < 0.01$ 时具有统计显著性。对于基线方法，eALS 在 MovieLens 上的 NDCG 比 BPR 高约 5.1%，而在 Pinterest 上的 NDCG 低于 BPR。这与 [14] 的发现一致，即 BPR 对于排名性能可以是一个很强的方法，这归功于其成对排名感知学习器。基于邻居的 ItemKNN 性能低于基于模型的方法，而 ItemPop 性能最差，这表明对用户个性化偏好建模的必要性，而不是仅仅向用户推荐热门项目。
4.2.1 Utility of Pre-training
在这里插入图片描述
文中通过比较有预训练和无预训练两种版本的 NeuMF 的性能来展示预训练的作用。对于无预训练的 NeuMF，采用 Adam 算法随机初始化进行学习。文中提到，如表 2 所示，有预训练的 NeuMF 在大多数情况下表现更好，只有在 MovieLens 数据集上预测因子为 8 时，预训练方法的表现稍差。有预训练的 NeuMF 在 MovieLens 和 Pinterest 数据集上的相对改进分别为 2.2% 和 1.1%，这一结果证明了预训练方法对初始化 NeuMF 是有用的。

4.3 Log Loss with Negative Sampling (RQ2)

1. 优化 NCF 方法的对数损失（Log Loss）
内容总结
为处理隐式反馈的单类特性，将推荐视为二进制分类任务，通过将 NCF 作为概率模型，用对数损失进行优化。
图 6 展示了在 MovieLens 数据集上 NCF 方法每次迭代的训练损失（所有实例的平均值）和推荐性能。结果表明，随着迭代次数增加，NCF 模型的训练损失逐渐降低，推荐性能提升。最有效的更新发生在前 10 次迭代，之后可能出现过拟合（例如 NeuMF 在 10 次迭代后训练损失继续降低，但推荐性能下降）。
在三种 NCF 方法中，NeuMF 的训练损失最低，其次是 MLP，然后是 GMF，推荐性能也呈现 NeuMF > MLP > GMF 的趋势，这为优化对数损失从隐式数据中学习的合理性和有效性提供了经验证据。
在这里插入图片描述
图 6：在 MovieLens 数据集上（因子数 == 8），神经协同过滤（NCF）方法的训练损失及推荐性能随迭代次数变化的情况。
2. 逐点对数损失相对于成对目标函数的优势
内容总结
逐点对数损失相对于成对目标函数（如 [27, 33] 中提到的）的一个优势是对负实例的灵活采样率。成对目标函数每次只能将一个采样的负实例与一个正实例配对，而逐点损失可以灵活控制采样率。
图 7 展示了 NCF 方法在不同负采样率下的性能。结果表明，每个正实例仅一个负样本不足以实现最佳性能，采样更多负样本是有益的。比较 GMF 和 BPR，当采样率为 1 时，GMF 的性能与 BPR 相当，而当采样率更大时，GMF 显著优于 BPR，这显示了逐点对数损失相对于成对 BPR 损失的优势。对于两个数据集，最佳采样率约为 3 到 6。在 Pinterest 数据集上，当采样率大于 7 时，NCF 方法的性能开始下降，说明采样率设置过高可能会损害性能。

在这里插入图片描述
图 7：神经协同过滤（NCF）方法在每个正例对应的负样本数量方面的性能（因子数 = 16）。还展示了贝叶斯个性化排序（BPR）的性能，它在学习时每个正例仅采样一个负例进行配对。

4.4 Is Deep Learning Helpful? (RQ3)

一、研究内容
通过实验探究具有不同隐藏层数的多层感知机（MLP）在推荐任务中的表现，具体观察不同层数的 MLP 对用户 - 项目交互功能学习的影响。
二、实验设置与表示
模型表示：如 MLP - 3 代表除嵌入层外，具有三层隐藏层的 MLP 方法，其他类似标注依此类推。
实验数据：相关实验结果记录在表 3 和表 4 中。
在这里插入图片描述

三、主要发现
1.深层模型的有效性
即便模型能力相同，堆叠更多隐藏层对性能提升有益，表明在协同推荐中使用深层模型是有效的。
将性能提升的原因归结为堆叠更多非线性层能带来高度非线性，有助于更好地挖掘数据特征。
为验证这一点，尝试堆叠线性层（使用恒等函数作为激活函数），发现其性能远不如使用 ReLU 单元的情况，进一步说明了非线性层在提升性能方面的重要性。
2.隐藏层的必要性
对于没有隐藏层的 MLP - 0（即仅用嵌入层直接进行预测），其性能很差，甚至不比非个性化的 Item - Pop 好。
这一结果验证了之前提出的观点：简单地连接用户和项目潜在向量，无法充分对它们的特征交互进行建模，所以利用隐藏层进行转换是十分必要的。

5. RELATED WORK

1.推荐系统数据类型的转变
早期的推荐系统文献主要关注显式反馈，而近期注意力转向隐式数据。
基于隐式反馈的协同过滤（CF）任务通常被表述为项目推荐问题，与基于显式反馈已被广泛解决的评分预测问题相比，项目推荐问题更具实用性但也更具挑战性。
2.基于隐式反馈的项目推荐模型
早期工作对隐式反馈中的缺失数据采用统一加权的方法，有将所有缺失数据视为负例或从缺失数据中采样负例两种策略。
近期有研究提出了对缺失数据加权的专用模型，如 He 等人和 Liang 等人的工作，以及 Rendle 等人开发的隐式坐标下降解决方案（ICD），取得了很好的性能。
3.基于神经网络的推荐工作
Salakhutdinov 等人提出了两层受限玻尔兹曼机（RBMs）来模拟用户对项目的显式评分。
基于用户的 AutoRec 通过学习隐藏结构来重建用户的评分。
去噪自编码器（DAEs）用于从有意损坏的输入中学习，以避免自编码器学习恒等函数而无法泛化到未见过的数据。
Zheng 等人提出了用于 CF 的神经自回归方法。
虽然上述工作支持了神经网络解决 CF 问题的有效性，但大多集中在显式评分且仅对观察到的数据建模，容易无法从正例 - 仅隐式数据中学习用户偏好。
4.基于隐式反馈的协同过滤模型
一些近期工作探索了基于隐式反馈的深度学习模型，但主要用于对辅助信息（如项目的文本描述、音乐的声学特征、用户的跨域行为、知识库中的丰富信息）建模，并与矩阵分解（MF）集成用于 CF。
文中提到的与作者工作最相关的是提出了具有隐式反馈的协同去噪自编码器（CDAE），与基于 DAE 的 CF 相比，CDAE 还将用户节点插入到自编码器的输入中以重建用户的评分。
作者提出的神经协同过滤（NCF）采用双路径架构，使用多层前馈神经网络对用户 - 项目交互进行建模，比固定的内积函数更强大和灵活。
5.相关研究方向
在知识图谱领域，学习两个实体之间关系的研究很多，如神经张量网络（NTN）使用神经网络学习两个实体的交互并表现出强大的性能。
Google 公布了他们用于应用推荐的 Wide&Deep 学习方法，其深层组件在特征嵌入上使用多层感知机（MLP），具有很强的泛化能力。
作者的目标是探索深度神经网络（DNNs）用于纯协同过滤系统，表明 DNNs 是对用户 - 项目交互建模的有前途的选择。

6. CONCLUSION AND FUTURE WORK

作者在协同过滤（collaborative filtering）中对神经网络架构的探索。作者设计了一个通用框架 NCF，并提出了 GMF、MLP 和 NeuMF 三种实例，用于以不同方式对用户 - 项目交互进行建模。该框架简单且通用，不仅限于文中所呈现的模型，还旨在为推荐的深度学习方法开发提供指导，补充了主流的协同过滤浅层模型，为基于深度学习的推荐研究开辟了新途径。
未来研究方向包括：
1.为 NCF 模型研究成对学习器，并将 NCF 扩展到对辅助信息（如用户评论、知识库和时间信号）进行建模。
2.开发针对用户群体的模型，帮助社交群体决策。
3…构建多媒体项目推荐系统，需要开发从多视图和多模态数据中学习的有效方法，因为多媒体项目（如图像和视频）包含丰富的视觉语义，可以反映用户兴趣。
4.探索递归神经网络和哈希方法的潜力，以提供高效的在线推荐。
最后，作者感谢匿名评审者对推荐系统和论文修订提出的宝贵意见。