当代推荐系统：深入了解FB、谷歌的商用机器学习算法

最新推荐文章于 2022-08-28 10:45:45 发布

数据实战派

最新推荐文章于 2022-08-28 10:45:45 发布

阅读量549

点赞数

本文链接：https://blog.csdn.net/shujushizhanpai/article/details/113760827

版权

本文深入探讨了现代推荐系统，包括Facebook和谷歌等大公司的算法。文章介绍了基于内容和协同过滤的推荐算法，以及混合推荐模型如FM、DeepFM和神经协同过滤(NCF)。重点讲解了Facebook的DLRM模型，该模型强调实用性、并行训练和GPU计算。通过对不同模型的比较，突显了混合深度模型在推荐任务中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题图来源：pixabay

作者：Maximilian Beckers（MercedesBenz ML 工程师）

译者：LZM

原文：Modern Recommender Systems : A Deep Dive into the AI algorithms that companies like Facebook and Google have built their business around

2019 年 5 月，Facebook 开源了部分正在使用的推荐算法，其中包括 DLRM (Deep-learning Recommendation Model，深度学习推荐模型)。这篇文章旨在解释 DLRM 和其他现代推荐算法为何能有如此出色的表现，包括研究它们是如何从以往的推荐模型演化发展而来、具体的内部工作原理以及对工作原理必要的直观解读。

基于人工智能的个性化广告服务是这场网络营销游戏的主题，而 Facebook、Google、Amazon、Netflix 等大公司是这场游戏的王牌选手。他们不仅成功地适应了当下的网络营销趋势，还进一步地发展了该趋势，并围绕此建立起自己的商业生态。Netflix 的 “你可能喜欢的电影” 和 Amazon 的 “买了这件商品的顾客也买了” 就是两个成功的网络营销案例。

作为 Facebook 和谷歌的用户，我有时候会自然而然地问自己：“为什么他们的推荐竟然能如此准确？”

我们都知道，基于协同过滤（矩阵分解）的推荐算法是如何发挥作用的。此外，本文中，我不想讨论 “直接为每个用户训练一个的分类器，然后输出用户是否习惯某个商品的概率” 这样的方法。这两类方法（协同过滤以及基于内容的推荐）必须产生某种的性能和预测。但谷歌、Facebook 和其他公司肯定有更好的策略，否则它们不会有今天的成就。

为了了解今天的高端推荐系统从何而来，我们必须首先了解一下预测 “某个用户对某个商品的喜爱程度 “这个问题的两种基本方法。在网络营销的世界里，这个问题的答案意味着广告点击率 (CTR) 的提升。

1、基于内容的推荐算法 vs 基于协同过滤的推荐算法

宽泛地说，基于内容的推荐是指通过用户的在线历史记录来预测他（她）是否喜欢某件产品。这里的内容包括：用户点过的赞 (如在 Facebook 上)，搜索过的关键字 (如在谷歌上)，以及对某些网站的访问。总之，基于内容的推荐算法关注用户自身的偏好和属性。例如，我们可以想象一个简单的二元分类器 (或回归器)，它为该用户输出特定广告组的点击率 (或分数)。

然而与前者相比，协同过滤试图通过查看相似用户的偏好来预测该用户是否会喜欢某件产品。在这里，我们可以考虑用于电影推荐的标准矩阵分解 (MF，Matrix Factorization) 算法，其中评级矩阵被分解成一个针对用户的嵌入矩阵和一个针对电影的嵌入矩阵。

经典矩阵分解算法的一个缺点是，我们不能使用任何来自用户和商品的特征，例如电影类型、上映日期等，矩阵分解本身必须从现有的用户和商品的交互中学习。此外，经典的矩阵分解算法还会遭遇所谓的 “冷启动问题”（cold start problem），这意味着尚未被任何人打分的新电影不会被推荐。基于内容的过滤解决了这两个问题，然而，缺乏基于相似用户偏好的预测能力。

这两类方法各自的优缺点为设计新模型带来了思路。