浅谈推荐系统基础

最新推荐文章于 2024-10-10 16:34:31 发布

hellozhxy

最新推荐文章于 2024-10-10 16:34:31 发布

阅读量2.8k

点赞数

分类专栏：推荐系统

推荐系统专栏收录该内容

53 篇文章 5 订阅

订阅专栏

这篇文章的技术难度会低一些，主要是对推荐系统所涉及到的各部分内容进行介绍，以及给出一些推荐系统的常用算法，比起技术，产品色彩会强不少。参考了《长尾理论》、《推荐系统实践》以及大量相关博客内容。

什么是推荐系统

我之前写过一篇《长尾理论》精读，里面有这样的观点：

推动市场由热门经济学向长尾经济学转变有三种力量：第一种是生产普及的力量（生产者），第二种是传播普及的力量（集合器），第三种是供需相连的力量（过滤器）。

生产普及的力量指，当下大众制作内容（图像、音视频、文字等）的门槛大大降低，人们有能力制作并有意愿分享自己产生的内容。使得可供展示的内容量大大增加。

传播普及的力量指，相当一部分内容由原子存在变为比特存在，不再需要占据物理世界中的『货架』，而是存储在硬盘之中，存储成本的降低使得大量非热门的长尾内容可以被摆上虚拟世界中的『货架』，真的有了对外展示的机会。

而供需相连的力量，就是指推荐系统。

既然存在大量的长尾内容，那如何供需相连？推荐系统要做的，就是联系用户和内容，一方面帮助用户发现对自己有价值的内容；另一方面让内容能够展现在对它感兴趣的用户面前，从而实现内容消费者和内容生产者的双赢。

为了联系用户和内容，其实过去也有很优秀的解决方案，有代表性的比如分类目录和搜索引擎。

随着互联网规模的不断扩大，分类目录网站也只能覆盖少量的热门网站，越来越不能满足用户的需求，因此搜索引擎诞生了。搜索引擎可以让用户搜索关键词来找到自己所需要的信息，但是，搜索的前提就是用户要主动提供准确的关键词，但是如果用户无法准确的描述自己需求的关键词时，搜索引擎就无能为力了。

而推荐系统不同，它不需要用户提供明确的需求，甚至连用户主动提出需求都不需要。推荐系统通过分析用户的历史行为给用户的兴趣建模，从而主动给用户推荐能够满足它们兴趣和需求的内容。

什么是好的推荐系统？

先总体来说，一个完整的推荐系统一般存在三个参与方：用户、内容提供者和提供推荐系统的网站。

首先，推荐系统要满足用户的需求，给用户推荐那些让他们感兴趣的内容；其次，推荐系统要让内容提供者的内容都能被推荐给对其感兴趣的用户；最后，好的推荐系统设计，能够让推荐系统本身收集到高质量的用户反馈，不断提高推荐的质量，提高推荐系统的效益。

总结

在上面提到的指标里，预测准确度、覆盖率、多样性、新颖性是可以离线计算的。实际评测算法时，我们一般采用预测准确度的正确率和召回率，覆盖率，还有推荐商品的平均流行度。

综合一下上面的指标，我们前面说了三个目标，分别是让用户满意、让物品提供者满意、让推荐系统满意。用户满意度对应第一个目标，覆盖率对应第二个目标，商业目标对应第三个目标。因为用户满意度不容易获得，所以实际上预测准确度替代用户满意度成为了最重要的指标。然后我们回到推荐列表上，将其与物品类型结合，物品种类多就是多样性；将其与用户认知结合，用户没听过就是新颖性。惊喜度是新颖性的升级。然后是整个推荐系统，推荐系统需要实时性和健壮性，来稳定保证好的推荐结果。而且有的场景的推荐系统还要考虑到用户对推荐系统的信任度的问题。

这样就把这十个指标串起来了，也更方便记忆。

当然我们在采用以上指标进行评测时，也要考虑到评测的用户维度、物品维度、时间维度，也就是涉及评测的用户群，物品的种类属性和评测的季节、时间等。这可以让我们发现不同算法在不同场景下的优缺点。

利用用户行为数据

实现个性化推荐最理想的情况，是用户告诉我们他喜欢什么，但这种方法有三个缺点：

第一个是，现在的自然语言处理技术还很难理解用户用来描述兴趣的自然语言；
第二个是，用户的兴趣是不断变化的；
第三个是，用户也不知道自己喜欢什么，或者说，用户也很难用语言描述自己喜欢什么。

这里考虑代入HMM的思想，用户的需求会不断变化，就是状态序列。而且这个状态序列是隐藏的，也就是我们无法直接获知用户的兴趣，不管是因为用户自己没意识到还是无法表达。我们需要通过观察序列，也就是用户的行为数据去做推测，去根据EM算法估计这个HMM的参数，然后再用其来得到用户的需求序列，也就是隐状态序列。

基于用户行为分析的算法是个性化推荐系统的重要算法，学术界一般将这种算法称为协同过滤算法。

我们能拿到的用户行为一般分为两种，显性反馈行为和隐性反馈行为，显性反馈行为就是点击喜欢不喜欢，或者评5分1分。隐性反馈行为指的是那些不能明确反应用户喜好的行为。最具代表性的隐性反馈行为就是页面浏览行为，虽然不明确，但数据量更大。而且隐性反馈只有正反馈，没有负反馈。

即便是反馈也分为有无上下文，实际上就是是否记录了用户反馈行为的时间以及前后行为，这里先只考虑无上下文的隐性反馈数据集。

用户行为分析

用户活跃度和物品流行度的分布

互联网上的很多数据其实都满足长尾分布，也叫PowerLaw分布，我在《浅谈自然语言处理基础》中还提到过，就是讲平滑方法，古德图灵估计法那里。里面提到了Zipf定律，也即，如果将英文单词出现的频率按照由高到低排列，则每个单词出现的频率和它在热门排行榜中排名的常数次幂成反比。也可以这么说，如果x1，x2，x3是三个热门排名相邻的三类单词，x1最靠前，那么出现的频率x2/x1 < x2/x3，也就是最开始下降的最快，然后下降速度越来越慢。

我们发现，用户活跃度和物品流行度都满足长尾分布。

用户活跃度和物品流行度的关系

我们认为，新用户倾向于浏览热门的物品，老用户会逐渐开始浏览冷门的物品。用户越活跃，越倾向于浏览冷门的物品。

仅仅基于用户数据设计的推荐算法一般称为协同过滤算法，协同过滤算法也分为不同种类，比如基于邻域的方法、隐语义模型、基于图的随机游走算法等。其中应用的最广的是基于邻域的方法，而基于邻域的方法主要包括以下两种：

基于用户的协同过滤算法：给用户推荐和他兴趣相似的用户喜欢的物品
基于物品的协同过滤算法：给用户推荐和他之前喜欢的物品相似的物品

简便起见，我们通常使用准确率、召回率、覆盖率和新颖度来对算法进行离线实验，覆盖率就用最简单的覆盖率定义，新颖度用推荐物品的平均流行度代替。

基于邻域的算法

基于用户的协同过滤算法

基于用户的协同过滤算法主要包括两个步骤：

找到和目标用户兴趣相似的用户集合
找到这个集合中的用户喜欢的，且目标用户没有听说过的物品推荐给目标用户

第一步的关键就是找到和目标用户兴趣相似的用户，我们可以用两个用户兴趣的交集比上兴趣的并集来求得相似度（Jaccard相似度），或者利用余弦相似度计算。

如果用余弦相似度：

分子是两个用户兴趣交集的模，分母是两个用户兴趣的模的乘积的平方根。

要注意的是，有很多用户之间根本就没有兴趣的交集，所以就不需要浪费时间在这种情况的计算上。

得到用户之间的兴趣相似度之后，UserCF算法会推荐给用户和他兴趣最相似的K个用户最喜欢的若干个物品。

判断该用户u对某一件物品i的感兴趣程度时的公式如下：

也即用K个和他兴趣最相似用户的平均兴趣代表这个用户的兴趣。w代表两个用户兴趣之间的相似程度，r指感兴趣程度的大小，这里统一为1。Σ下面的意思是，K个和u兴趣最相似的用户，而且同时要对物品i有过行为。可以这么理解，如果这K个用户都没有对某个物品有过行为，那基本就可以认为他们对该物品都不感兴趣，就不应该加到式子中。

换句话说，这K个用户，与用户u的相似度决定了他们的话语权，他们表决的方式就是自己是否对该物品有过正面行为。

最后我们只需要取感兴趣程度TopN的物品出来推荐给用户就好了，当然还要去掉该用户已经有过行为的物品。

K是UserCF算法的一个重要参数。K的选取会影响UserCF算法的结果。

一般进行算法评测时，我们会有两个标准算法，分别是MostPopular和Random算法，一个是按最高流行度来，一个是完全随机，都只是简单的去掉用户有过行为的物品。

UserCF算法的平均性能要远好于以上两个算法。

当然UserCF算法也有改进的空间，比如在计算用户相似度的时候，大家同样购买了热门物品其实没有什么说服力，并不能以此说明两个用户就相似了，所以我们需要对热门物品进行降权，如下式：

该公式与原公式相比，惩罚了用户u和用户v共同兴趣列表中热门物品对他们相似度的影响。这里先提一下TF-IDF，后面还要提，《浅谈机器学习基础》中讲K-means的时候就讲过TF-IDF，TF-IDF里的这个IDF，就是对出现在几乎所有文档中的热门词进行降权惩罚。

基于物品的协同过滤算法

基于物品的协同过滤算法是目前业界应用最多的算法。

如果网站的用户数目增加较快，计算用户兴趣的相似度矩阵就越来越难。而ItemCF算法不计算用户兴趣的相似度矩阵，而是计算物品之间的相似度。还有，我们前面说过基于邻域的这两个算法都是协同过滤算法，协同过滤算法的定义就是只使用用户行为数据，所以这里所定义的物品的相似度，不利用物品本身的内容信息去计算，而是主要通过分析用户的行为记录计算物品之间的相似度。

如果喜欢A的用户大多都喜欢B，那么A和B可以讲拥有一定的相似性。或者说，就算不相似，那我们把B推荐给喜欢A的用户也是没错的。

基于物品的协同过滤算法主要分为两步：

计算物品之间的相似度
根据物品的相似度和用户的历史行为给用户生成推荐列表

我们可以用下面的公式定义物品之间的相似度：

意思就是，买了i的用户有多少也买了j。如果两者的用户群重合比例越大，那么认为i和j就更相似。

但是还有个问题，就是如果按照上面的公式算，所有的物品都和热门商品相似，如果j是大热门商品的话，基本上喜欢i的全都喜欢j，这样就有问题，为了提高覆盖率，我们要对热门物品进行惩罚：

上面的式子就对热门物品的权重进行了惩罚。

得到物品的相似度之后，ItemCF通过如下公式计算用户u对物品i的兴趣：

与UserCF对比着来说，UserCF是用K个和用户u兴趣最相似用户的平均兴趣代表这个用户u的兴趣；ItemCF就是用K个和物品j最相似的物品来代表这个物品j。UserCF是，这K个用户，与用户u的相似度决定了他们的话语权，他们表决的方式就是自己是否对该物品有过正面行为；ItemCF是，这K个物品，与物品j的相似度决定了他们的话语权，他们表决的方式就是自己是否被该用户有过正面行为。

然后我们再回到物品相似度，虽然上面已经给热门物品降了权，但是我们还要考虑到热门用户的问题。我们认为，一个活跃用户可能会喜欢很多种类的物品，他对物品相似度的贡献应该小于不活跃的用户，因为不活跃的用户往往喜欢比较专一，在衡量物品相似度上更有价值，这叫IUF（Inverse User Frequence）。如下式：

又进一步对活跃用户进行了降权。

另外，在有物品分类的情况下，我们需要对类内物品相似度进行归一化，因为通常热门类别类内相似度也较高。如果一个用户同时喜欢了热门类别和非热门类别的物品，如果纯按照相似度推荐，那就会都推荐给用户热门类别中的物品，会降低覆盖度、多样性。所以我们利用类内最大的相似度，对类内所有的相似度进行归一化。

UserCF和ItemCF的综合比较

主要从两个方面来讲，第一个，UserCF的推荐结果着重于反应和用户兴趣相似的小群体的热点，着重于维系用户的历史兴趣，因为就是根据历史兴趣计算出来的相似用户，进而计算出来的推荐商品。而ItemCF的推荐更加个性化，反映用户自己的兴趣传承，因为一旦用户的兴趣有了更新，喜欢了新物品，那么与该物品相关的物品在参与ItemCF进行计算时，就会马上有权重提高，被推荐出来。

这么说，UserCF帮你找了一些用户来代表你，他们的兴趣是不可能统一的发生大幅改变的，所以你得到的推荐结果都是这一类的东西；而ItemCF，一旦你兴趣列表变了，那接着就认为你兴趣变了，喜欢你这个新兴趣的人喜欢的物品就会被推荐给你。

UserCF认为喜欢同样物品的人相似，ItemCF认为被同样人喜欢的物品相似。UserCF对用户聚类，整体对待他们的喜好，ItemCF对物品聚类，喜欢一个就是喜欢一堆。

对于UserCF和ItemCF，再举一下典型的例子，首先是新闻网站，新闻网站必然要用UserCF，相似用户的兴趣基本相同，没问题；如果用了ItemCF，难道要推荐和这篇新闻相似的旧新闻？当然这两种方法也不是一定要绝对分开。

比如音乐网站，网易云音乐的推荐算法，就更接近ItemCF，你喜欢了一种新风格，这一风格的歌就会被推荐给你，而不是认为你一辈子只喜欢听一种类型的音乐，把你和与过去的你相似的人绑在一起。

第二个是从技术角度想，物品和用户表，哪个稳定就用哪个建模。物品迅速增加那就建立用户相似度表，用户迅速增加就建立物品相似度表。

隐语义模型

隐语义模型（latent factor model，LFM）是最近几年推荐系统最为热门的研究话题，它的核心思想是通过隐含特征联系用户兴趣和物品。

前面已经详细的介绍了UserCF和ItemCF，这里说一下LFM的主要思想，首先回忆一下SVD，SVD将矩阵拆解为三部分的乘积。《浅谈机器学习基础》中这样讲过：

SVD的第二个用途是在自然语言处理中，我在《数学之美》这本书上读到。我们用A矩阵来描述成千上万篇文章和几十上百万个词的关联性，A里面每一列是一篇文章，每一行代表一个词，对应位置上是这个词的加权词频（比如TF-IDF值），然后我们对A进行奇异值分解，分成这样：A=XBY，这里和前面的：A=XY的关联性在于，两式的X相同，第二式的Y等于第一式中的BY，X是M*K，B是K*K，Y是K*N。

第一个矩阵X是对词分类的结果，它的每一行表示一个词，每一列表示一个同义词类，对应位置的值表示该词和该同义词类的相关性大小。

第三个矩阵Y是对文章分类的结果，它的每一列对应一篇文章，每一行表示一个主题，对应位置的值表示该文章和该主题的相关性大小。

第二个矩阵则展示了不同同义词类和不同文章主题的相关性大小。

推荐系统这里也是同理，如果将原数据按照SVD分解成三个矩阵的话，所得到的就是对用户兴趣的分类、对物品的分类以及用户兴趣类别与物品类别之间的关系。当然我们也知道SVD不仅能分解成三个矩阵的形式，也能分解为两矩阵的形式，意义是用户兴趣与某隐类的关系和该隐类与物品的关系。SVD的详细讲解可以参考前面的《浅谈机器学习基础》，其实下面要讲的LFM方法，也就是《浅谈机器学习基础》所讲的，SVD在推荐系统中的应用。

当然对用户兴趣和物品进行分类这件事情人工也是可以做的，但成本较大，而且效果也并不太好，所以这里就不详细说了。

隐含语义分析技术其实有很多著名的模型和方法，其中和该技术相关的有pLSA、LDA、隐含类别模型、隐含主题模型、矩阵分解等。这些方法在本质上是相通的。这里主要讲解LFM。

LFM通过如下公式计算用户u对物品i的兴趣：

累加式子中的p代表用户u的兴趣和第k个隐类之间的关系，q代表第k个隐类和物品i之间的关系。对所有隐类求和的结果就是总的兴趣程度。

这其实是种机器学习方法，模型就是这个模型，然后我们可以用平方误差来做损失函数，就是给定训练集下，度量用户感兴趣与否的实际情况与预测结果是否相符，再用梯度下降最小化损失函数，减小模型预测结果与实际情况的误差，最终收敛就可以了。我们还可以在损失函数中添加正则项来防止过拟合。这些都是《浅谈机器学习基础》里面反复讲过的东西。

而且为了应对隐性反馈数据集只有正样本的情况，我们倾向于从用户没有行为的热门物品中选取适量（与正样本数平衡）的负样本。适量就不用说了，选择热门物品的原因在于，物品热门而用户对其无正面反馈，比冷门物品更能说明用户对其不感兴趣，而不是因为也许根本就没有发现。

LFM还有个问题，就是它很难实现实时的推荐，因为经典的LFM模型每次训练时都要扫描所有的用户行为记录，不是分分钟就能训练好就能更新用户隐类向量p和物品隐类向量q的。如果要将LFM应用在新闻网站这种内容实时更新的系统中，那是肯定无法满足需求的。

雅虎为了解决传统LFM不能实时化的问题，提出了一个解决方案，公式如下：

后面那部分就是原先的用户隐类向量和物品隐类向量，几个小时更新一次。实时性体现在前面的式子上，x是根据用户历史行为特别训练的用户向量，y是根据物品的内容（关键词、属性、种类）去生成的物品内容特征向量。这样两者的乘积就能实时的估计出用户对该物品的兴趣，几小时后，通过传统的LFM就能得到更精确的数据。

就像上面说的，LFM与基于邻域的这两种方法UserCF和ItemCF相比，LFM不能在线实时推荐，需要提前训练好模型，而ItemCF可以，至于UserCF，只要和他相似的用户喜欢了新的物品，也可以做到实时推荐。

基于图的方法较麻烦，而且效果也比不上LFM，这里就不详细说了。