推荐系统实战（4）——基于模型的协同过滤算法（隐语义模型LFM）（代码实现）

最新推荐文章于 2025-03-28 23:51:13 发布

语亦情非

最新推荐文章于 2025-03-28 23:51:13 发布

阅读量4.9k

点赞数 3

分类专栏：推荐系统文章标签：推荐系统

本文链接：https://blog.csdn.net/a1272899331/article/details/105159964

版权

LFM模型通过降维的方法将user-item评分矩阵缺失值补全。

1 基本原理

LFM(Latent Factor Model)隐语义模型是最近几年推荐系统领域最为热门的研究话题，它的核心思想是通过隐含特征(Latent Factor)联系用户兴趣和物品。那这种模型跟ItemCF或UserCF有什么不同呢？这里可以做一个对比：

对于UserCF，我们可以先计算和目标用户兴趣相似的用户，之后再根据计算出来的用户喜欢的物品给目标用户推荐物品。
而ItemCF，我们可以根据目标用户喜欢的物品，寻找和这些物品相似的物品，再推荐给用户。
还有一种方法，先对所有的物品进行分类，再根据用户的兴趣分类给用户推荐该分类中的物品，LFM就是用来实现这种方法。
就是根据用户的当前偏好信息，得到用户的兴趣偏好，将该类兴趣对应的物品推荐给当前用户。比如，用户A喜欢的《数据挖掘导论》属于计算机类的书籍，那我们可以将其他的计算机类书籍推荐给用户A；用户B喜欢的是文学类数据，可将《巴黎圣母院》等这类文字作品推荐给用户B。这就是隐语义模型，依据“兴趣”这一隐含特征将用户与物品进行连接，需要说明的是此处的“兴趣”其实是对物品类型的一个分类而已。

这个基于兴趣分类的方法大概需要解决3个问题。

如何给物品进行分类？
如何确定用户对哪些类的物品感兴趣，以及感兴趣的程度？
对于一个给定的类，选择哪些属于这个类的物品推荐给用户，以及如何确定这些物品在一个类中的权重？

2 隐语义模型的数学理解

我们从数学角度来理解隐语义模型。如下图所示，R矩阵是用户对物品的偏好信息（Rij表示的是user i对item j的兴趣度），P矩阵是用户对各物品类别的一个偏好信息（Pij表示的是user i对class j的兴趣度），Q矩阵是各物品所归属的的物品类别的信息（Qij表示的是item j在class i中的权重）。隐语义模型就是要将矩阵R分解为矩阵P和矩阵Q的乘积，即通过矩阵中的物品类别(class)将用户user和物品item联系起来。实际上我们需要根据用户当前的物品偏好信息R进行计算，从而得到对应的矩阵P和矩阵Q。

3 隐语义模型所解决的问题

这个基于兴趣分类的方法大概需要解决3个问题。

如何给物品进行分类？
如何确定用户对哪些类的物品感兴趣，以及感兴趣的程度？
对于一个给定的类，选择哪些属于这个类的物品推荐给用户，以及如何确定这些物品在一个类中的权重？

3.1 物品分类

对于第一个问题的简单解决方案是找编辑给物品分类。以图书为例，每本书出版时，编辑都会给书一个分类。为了给图书分类，出版界普遍遵循中国图书分类法。但是，即使有很系统的分类体系，编辑给出的分类仍然具有以下缺点：

编辑的意见不能代表各种用户的意见。比如，对于《具体数学》应该属于什么分类，有人认为应该属于数学，有些人认为应该属于计算机。从内容看，这本书是关于数学的，但从用户看，这本书的读大部分是做计算机出身的。编辑的分类大部分是从书的内容出发，而不是从书的读者群出发。
编辑很难控制分类的粒度。我们知道分类是有不同粒度的，《数据挖掘导论》在粗粒度的分类中可能属于计算机技术，但在细粒度的分类中可能属于数据挖掘。对于不同的用户，我们可能需要不同的粒度。比如对于一位初学者，我们粗粒度地给他做推荐就可以了，而对于一名资深研究人员，我们就需要深入到他的很细分的领域给他做个性化推荐。
编辑很难给一个物品多个分类。有的书不仅属于一个类，而是可能属于很多的类。
编辑很难给出多维度的分类。我们知道，分类是可以有很多维度的，

最低0.47元/天解锁文章