隐语义模型：LFM

最新推荐文章于 2022-05-16 11:25:28 发布

hhjhh76

最新推荐文章于 2022-05-16 11:25:28 发布

阅读量985

点赞数 2

分类专栏：推荐算法文章标签：协同过滤推荐算法隐语义模型 LFM

本文链接：https://blog.csdn.net/hhjhh76/article/details/89632557

版权

推荐算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、协同过滤推荐算法

协同过滤算法是指基于用户行为数据设计的推荐算法，主要包括：
1.基于邻域的算法：UserCF（基于用户的协同过滤算法）、ItemCF（基于物品的协同过滤算法）
2.隐语义模型：LFM
3.基于图的随机游走算法：PersonalRank
本文主要介绍隐语义模型LFM

二、隐语义模型：LFM

可以通过对用户的兴趣和物品进行分类实现推荐。在给用户推荐物品时，首先得到用户的兴趣分类，接着找出属于这些类别的物品推荐给用户。这种基于兴趣分类的的推荐方法需要解决以下3个问题：
1.如何给物品分类
2.如何确定用户对那些类别感兴趣，以及感兴趣的程度
3.对于一个给定的类别，选择那些属于这个类别的物品推荐给用户，以及如何确定这些物品在一个类中的权重

对于第一个问题的简单解决方法是人工的给物品进行分类，然而，人工给物品分类存在以下缺点：
1.分类人员的意见不能代表各种用户的意见
2.分类人员很难控制分类的粒度：例如对于《推荐系统实践》在粗粒度上属于计算机技术，但在细粒度上属于人工智能推荐系统，对不同的用户可能需要不同的粒度。
3.分类人员很难给一个物品多个分类
4.分类人员很难给出多维度的分类：分类是有很多维度的，例如书籍可以根据作者、出版社、内容等进行分类，不同人选择书籍的原因可能不同，有些人根据作者选择书，有些人根据书的内容选择书。
5.分类人员很难决定一个物品在某一类别中的权重

为了解决上面问题，LFM从数据出发，采用基于用户行为统计的自动聚类，自动的找到那些类，然后进行个性化推荐。LFM的核心是通过隐含特征联系用户兴趣和物品。
在这里插入图片描述LFM将用户物品矩阵 $R_{m \times n}$ 分解为用户兴趣矩阵 $P_{m \times k }$ 和物品类别矩阵 $Q_{ k\times n}$ 的乘积:
$R_{m\times n} \approx P_{m \times k} Q_{k \times n}=\hat{R}_{m\times n}$
通过下面公式计算用户 u 对物品 i 的兴趣：
$Preference(u,i)=\hat{R}_{u,i}=P_{u} Q_{i}=\sum_{f=1}^{k}{P_{u,f} Q_{f,i}}$
其中， $P_{u,f}表示用户u的兴趣和第f个隐类之间的关系,Q_{f,i}表示第f个隐类和物品i之间的关系$
计算出用户 $u$ 对所有未产生行为的物品的感兴趣程度进行排序，就可以实现对用户u的推荐

举例如下：在这里插入图片描述 $Preference(2,1)=P_{2}Q_{1}=[P_{2,1},P_{2,2},P_{2,3}][Q_{1,1},Q_{2,1},Q_{3,1}]^{T}=P_{2,1}Q_{1,1}+P_{2,2}Q_{2,1}+P_{2,3}Q_{3,1}$

LFM的分类来自于对用户行为的统计，代表了用户的看法，每个物品可以属于多个类别，并且可以计算出物品属于每个类别的权重。隐类个数 $k$ 控制了分类的粒度，k越大，类别个数越多，分类的粒度越细。

三、LFM模型求解

数据集构建：
对于隐性反馈数据集，只有正样本，需要利用用户没有过行为的物品生成负样本，负样本的采样应遵循以下原则：
1.对每个用户，要保证正负样本的平衡（数目相似）
2.对每个用户采样负样本时，选取很热门但用户却没有行为的物品，因为很热门但是用户却没有行为更加说明用户对该物品不感兴趣

经过负样本采样，得到用户物品集合 $UI=\{(u,i)\}$ ，若 $(u, i)$ 是正样本，则 $R_{u,i}=1$ ，否则 $R_{u,i}=0$
求解：
损失函数： $L=\sum\limits_{(u,i)\in UI}{(R_{u,i}-\hat R_{u,i})^2}=\sum\limits_{(u,i)\in UI}{(R_{u,i}-\sum\limits_{f=1}^{k}P_{u,f}Q_{f,i})^2}+\lambda \left|{\left|{P_{u}}\right|}\right|^2+\lambda \left|{\left|{Q_{i}}\right|}\right|^2$
其中 $\lambda \left|{\left|{P_{u}}\right|}\right|^2+\lambda \left|{\left|{Q_{i}}\right|}\right|^2$ 为正则项，用来防止过拟合， $\lambda$ 的值可以根据实验获得

使用随机梯度下降法求解：
$\frac{\partial L}{\partial P_{u,f}}=-2(R_{u,i}-\sum\limits_{f=1}^{k}P_{u,f}Q_{f,i})Q_{f,i}+2\lambda P_{u,f}$
$\frac{\partial L}{\partial Q_{f,i}}=-2(R_{u.i}-\sum\limits_{f=1}^{k}P_{u,f}Q_{f,i})P_{u,f}+2\lambda Q_{f,i}$
沿着负梯度方向更新变量，步长取值 $\alpha$
$P_{u,f}=P_{u,f}+\alpha((R_{u,i}-\sum\limits_{f=1}^{k}P_{u,f}Q_{f,i})Q_{f,i}-\lambda P_{u,f})$
$Q_{f,i}=Q_{f,i}+\alpha((R_{u,i}-\sum\limits_{f=1}^{k}{P_{u,f}Q_{f,i}})P_{u,f}-\lambda Q_{f,i})$