隐性数据集上应用LFM解决Top-N推荐问题

最新推荐文章于 2020-08-04 16:07:43 发布

南山墓碑

最新推荐文章于 2020-08-04 16:07:43 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习文章标签： LFM 推荐系统推荐算法机器学习数据挖掘

本文链接：https://blog.csdn.net/cywtd/article/details/68946053

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了如何运用LFM（矩阵分解）解决推荐系统的Top-N问题，结合隐性反馈数据，详细阐述了LFM的矩阵分解原理，并探讨了推荐系统中的用户协同过滤、物品协同过滤等策略。通过实例分析了LFM在图书推荐中的应用，讨论了损失函数最小化和负样本选择策略，最后提出了模型优化的参数设置。

摘要由CSDN通过智能技术生成

1 最近在看线性代数的相关知识，昨晚看到矩阵QR分解，然后后面又介绍了一个LFM的分解，说是矩阵能分解出k隐含维数据，看了一眼后面用梯度下降推的公式，感觉好复杂，就没有再往下面看。

2.坐在几个搞推荐的大神旁边，整天听到“转化率”，“反馈”什么的，因为本身不是搞这个方向的，所以听起来挺神奇。

3.刚好在CSDN上看到一篇讲LFM隐语义应用在推荐系统上的文章，想到能复习一下线代上将的内容又能了解一下推荐系统，就做了下面的研究。推到了公式，但是算法还没有具体实现，后面会附上参考伪代码

浅谈推荐系统

之前很早就听说过关于推荐的那个“啤酒尿布”的故事，这次学习推荐系统了解到：

专业术语解释：

UserCF：User Collaborative Filter（用户协同过滤）
itemCF：Item Collaborative Filter（项/元素协同过滤）
显性反馈：用户行为的一种反馈，包含正样本和负样本
隐性反馈：只包含正样本，不包含负样本

关于推荐的几个思路：

UserCF：给用户B推荐的商品是和用户B相似的用户A相关的商品
ItemCF:给用户推荐的商品是根据用户之前拥有的商品决定的
兴趣分类：
3.1. 传统分类不适合复杂场景
3.2. LFM（隐含语义分析）接下来要讲的内容

隐性语义

因为之前做的项目，有幸了解到NLP领域隐含主题模型LDA，模型认为一片文章讲道理是由多个主题构成的，而多个主题下面又包含关于这个主题的词语，即：doc-topic-word。利用该模型能够挖掘到文章之间隐含的主题关系，根据隐含主题的关联关系可以确定出文章之间的关系。和LDA相关的叫做隐含语义分析技术。隐含语义分析技术采用基于用户行为统计的自动聚类，挖掘出a-latent-b的关系。

依据用户行为自动的进行分类，而非认为的确定类别个数
可以确定要分类的类别数量，数量多，粒度细
可以计算出物品属于某个类别的权重，哪个物品能够更好的代表这个类别，实现软分类

应用实例

在豆瓣图书推荐栏目，根据用户浏览的，购买的，收藏的关于图书的行为记录数据，要推荐给用户合适的图书。怎么实现图书推荐呢？这里主要根据LFM原理进行解释。假设有关于用户喜爱书籍的表格如下所示：

|
|——-|——–|——–|——-|
|user1: |侦探小说|科普 |计算机 |
| user2:| 数学 |机器学习| |
| … | … | … | … |

LFM矩阵分解

根据线性代数中的知识可知：将一个 $m*n$ 的矩阵 $A_{m*n}$ 可以分解为具有 $k$ 个隐变量的 $U_{m*k}*V_{k*m}$ 的矩阵。这里的维数 $k$ 就是隐含变量的个数，也就是latent factor。

A m * n = U m * k * V k * m

$A_{m*n}=U_{m*k}*V_{k*m}$
现假定有3个用户user1，user2，user3。他们各自分别对标记为item1，item2，item3，item4的图书（商品）的喜爱程度可形成一个

3∗4 $3*4$ 的user-item兴趣矩阵

R3∗4 $R_{3*4}$ 。

这里写图片描述

根据前面讲的LFM关于矩阵分解的知识，我们可以将这个 $3*4$ 的user-item矩阵 $R_{3*4}$ 分解为含有3个隐含变量的 $P_{3*3}*Q_{3*4}$ 的矩阵，其中 $P_{3*3}$ 表示用户对隐含类别的兴趣矩阵user-latent，而 $Q_{3*4}$ 表示图书（商品）在隐含类别中所占权重的矩阵。即：

R 3 * 4 = P 3 * 3 * Q 3 * 4

$R_{3*4}=P_{3*3}*Q_{3*4}$
这里写图片描述

故，对用户商品user-item矩阵 $R$ 中的每一个 $r_{u,i}$ （用户u对商品i的喜爱程度），可以通过矩阵分解式

r u, i = p u * q i = \sum k = 1 K p u, k * q k * i

$r_{u,i}=p_{u}*q_{i}=\sum_{k=1}^{K}p_{u,k}*q_{k*i}$ 进行表示。

让我们梳理一下逻辑

现要依据 $P,Q$ 参数矩阵来估计 $R$ 矩阵中的某个估计量 $\bar{r}_{u,i}$ ，总体思路采用损失函数最小化来求取参数矩阵 $P,Q$ 。
这里对 $R$ 矩阵中样本的选取要注意：由于采用的是隐性反馈，只有正样本，没有负样本，所以要依据一定的原则选取合适数量的负样本。在样本选定后进行参数估计。

样本选取原则：1.样本中包含正，负标记的样本数量相当；2.在推荐系统中负样本侧重选择热门商品中用户没有点击的那些

故，对 $k$ 个样本集中的样本 $(u,i)$ 以及对应的标记 $r_{u,i}$ ，有下面的损失函数表示：

$c = \sum (u, i) \in k (r u, i - r ¯ u, i) 2 = \sum (u, i) \in k (r u, i - \sum k = 1 K p u, k * q k * i) 2 + λ ∥ p u ∥ 2 + λ ∥ q i ∥ 2$ $c=\sum_{(u,i)\in k}(r_{u,i}-\bar r_{u,i})^2 = \sum_{(u,i)\in k}(r_{u,i}- \sum_{k=1}^{K}p_{u,k}*q_{k*i})^2 + \lambda\rVert p_{u} \rVert^2+\lambda\rVert q_{i} \rVert^2$
其中:
1 第一个等号右边的表达式总体上表示了标记实际值 $r_{u,i}$ 与估计值 $\bar r_{u,i}$ 之间差值平方，我们的目标就是将这个损失函数最小化，求得在最小化值下的 $P,Q$ 参数矩阵。

2 后面带 $\lambda$ 的两项为正则化项，是用来防止过拟合的。这里解释一下两个竖线表示2范数

3 这里损失函数最小化可以使用梯度下降法求得对应 $p_{u,k}$ 和 $q_{i,k}$ 的偏导数，利用一个 $\alpha$ 学习速率每次迭代 $p_{u,k}$ ， $q_{i,k}$ 的值，直至达到阈值。

我们对上面的损失函数 $c$ 分别对 $p_{u,k}$ 和 $q_{i,k}$ 求偏导数，得：

通过确定学习速率 $\lambda$ ，来对 $p_{u,k}$ ， $q_{i,k}$ 进行优化：

总结

由此可以看出模型需要确定的几个参数：
1. 隐变量的个数 $F$
2. 梯度下降法迭代的次数： $N$
3. 梯度下降学习速率： $\alpha$
4. 正则化项对应的参数： $\lambda$

最后贴上python版本的伪代码：

def LFM(user_items, F, N, alpha, lambda): [P, Q] = InitModel(user_items, F) For step in range(0, N): for user, items in user_item.iterms(): samples = RandSelectNegativeSamples(items) for item, rui in samples.items(): eui = eui - Predict(user, item) for f in range(0, F): P[user][f] += alpha * (eui * Q[f][item] - lambda * P[user][f]) Q[f][item] += alpha * (eui * P[user][f] - lambda * Q[f][item]) alpha *= 0.9

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

南山墓碑

关注关注

1
点赞

踩

3

收藏

觉得还不错? 一键收藏

1
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【推荐系统实战（二）】利用用户行为数据、推荐系统的冷启动问题

Yttttttttttttttt的博客

03-07 744

【推荐系统实战（二）】利用用户行为数据、推荐系统的冷启动问题利用用户行为数据用户行为数据简介基于物品的协同过滤算法UserCF和ItemCF的综合比较隐语义模型（LFM）LFM和基于邻域的算法比较基于图的模型用户行为二部图表示基于图的推荐算法推荐系统的冷启动问题冷启动问题简介利用用户行为数据基于用户行为分析的推荐算法是个性化推荐系统的重要算法，电子商务公司通过分析用户数据，找出诸如“购买A商品的用户都购买B商品”这种规律，学术界一般将这种类型的算法，称为协同过滤算法。顾名思义，协同过滤就是指用户可以齐心

推荐系统实践笔记——第二章_利用用户行为数据

liying700的博客

01-16 520

目录一、用户行为数据简介二、用户行为分析三、实验设计四、基于邻域的算法五、隐语义模型（参考LiuQQu的博客，版权声明：本文为CSDN博主「LiuQQu」的原创文章）六、基于图的模型（参考LiuQQu的博客，版权声明：本文为CSDN博主「LiuQQu」的原创文章）基于用户行为分析的推荐算法是个性化推荐系统的重要算法，学术界一般将这类型的算法称为协同过滤算法。一、用户...

1 条评论您还未登录，请先登录后发表或查看评论

隐形眼镜数据集

06-13

用于训练决策树、svm的数据集

推荐系统-基于隐语义模型(LFM)

zhengjihao的博客

01-06 3584

在上一篇博客，我们大致讲解了《推荐系统实践》中基于邻域的算法和代码实现，在这一篇博客，我们继续讲解基于隐语义模型(Latent Factor Model)的推荐系统。隐语义模型是近几年推荐系统领域最为热门的研究话题，它的核心思想是通过隐含特征(Latent factor)联系用户兴趣和物品。隐语义模型需要解决三个问题： 1 如何给物品进行分类 2 如何确定用户对哪些类的物品感兴趣以及感兴趣的

推荐算法-lfm

hch977的博客

02-15 762

推荐算法 lfm -latent factor model 隐语义模型简单易懂 by hch 它是个啥？点击矩阵： item 1 item 2 item 3 user 1 1 0 0 user 2 0 1 0 user 3 1 1 0 user i 表示第i号用户，item j表示第j号产品矩阵表示，用户对产品是否有点击，若点击，则为1，未点击，则为0 我们从这...

推荐算法中的LFM模型简介

01-13

最近几年做机器学习和数据挖掘研究的人经常会看到下面的各种名词，即隐含类别模型(Latent Class Model)、隐语义模型(Latent Factor Model)、pLSA、LDA、Topic Model、Matrix Factorization、Factorized Model。这些名词在本质上是同一种思想体系的不同扩展，在推荐系统领域，提的最多的就是潜语义模型和矩阵分解模型。其实，这两个名词说的是一回事，就是如何通过降维的方法将评分矩阵补全。

个人总结：推荐算法 从MF(LFM) 到 FM FFM Wide&Deep DeepFM

yyhhlancelot的博客

08-12 6217

FM 在推荐系统中，经常会碰到电影评分这样高度稀疏的数据，在之前的个人总结：推荐算法篇（附协同过滤等）综述的基于模型的协同过滤中，提到了FunkSVD(LFM，Latent Factor Model)，通过设置隐含特征，进行矩阵分解，来实现对未知评分的预测。这里FM，和LFM一样，也是隐变量模型。问题背景传统逻辑回归认为特征直接是相互独立的，但是很多情况下特征之间的依赖关系不可忽视，因...

《推荐系统实践》第二章利用用户行为数据

LiuQQu的专栏

11-09 1416

2.1 用户行为数据简介在电子商务网站中行为主要包括网页浏览、购买、点击、评分和评论等。用户行为在个性化推荐系统中一般分两种——显性反馈行为（explicit feedback）和隐性反馈行为（implicit feedback）。显性反馈行为包括用户明确表示对物品喜好的行为。隐性反馈行为指的是那些不能明确反应用户喜好的行为。最具代表性的隐性反馈行为就是页面浏览行为。按照反馈的明确...

# Python推荐系统学习笔记（3）------基于协同过滤的个性化推荐算法实战---隐语义模型

yi_xxxx的博客

05-17 2034

Python推荐系统学习笔记（3）------基于协同过滤的个性化推荐算法实战—隐语义模型一、概念性理解传统的推荐方法 UserCF，首先需要找到和他们看了同样书的其他用户，然后给他们推荐那些用户喜欢的其他书。 ItemCF，需要给他们推荐和他们已经看的书相似的书。基于隐语义模型通过矩阵分解建立用户和隐类之间的关系，物品和隐类之间的关系，最终得到用户对物品的偏好关系。隐语义模型（LFM）：通过矩阵分解建立用户和隐类之间的关系，物品和隐类之间的关系，最终得到用户对物品的偏好关系。隐含语义分析技术的

[推荐系统]利用用户行为数据

Viking的博客

11-02 5281

基于用户行为分析的推荐算法是个性化推荐系统的重要算法，一般将这种类型的算法称为协同过滤算法。协同过滤就是指用户可以齐心协力，通过不断地和网站互动，使自己的推荐列表能够不断过滤掉自己不感兴趣的物品，从而越来越满足自己的需求。用户行为数据简介用户行为数据在网站上最简单的存在形式就是日志。网站在运行过程中都产生大量原始日志raw log，并将其存储在文件系统中。很多互联网业务会把多种原始日志按照用户...

重叠社区发现算法LFM算法python源码含数据集

03-14

LFM算法是来源于论文《Detecting the overlapping and hieerarchical community structure in complex networks》，文档中包含该算法的python的源码，以及用到的数据集，仅供大家学习参考。

推荐系统之LFM算法详解

GFDGFHSDS的博客

03-10 1万+

个性化召回召回：从item中选取一部分作为候选集 1）不同的用户喜欢不同的item 2）部分作为候选集，降低系统的负担根据用户的属性行为上下文等信息从物品全集中选取其感兴趣的物品作为候选集；召回的重要作用：召回决定了最终推荐结果的天花板个性化召回解析分三种： 1.基于用户行为 2.基于user profile 3.基于隐语义的 LFM 工业届个性化召回架构：个性化召回算法LFM（latent...

2.3 推荐系统算法---LFM算法实现

WGS.

07-31 2184

基于矩阵分解的CF算法实现（一）：LFM LFM也就是前面提到的Funk SVD矩阵分解 LFM原理解析 LFM(latent factor model)隐语义模型核心思想是通过隐含特征联系用户和物品，如下图： P矩阵是User-LF矩阵，即用户和隐含特征矩阵。LF有三个，表示共总有三个隐含特征。 Q矩阵是LF-Item矩阵，即隐含特征和物品的矩阵 R矩阵是User-Item矩阵，有P*Q得来能处理稀疏评分矩阵损失函数同样对于评分预测我们利用平方差来构建损失函数：加入L2正则化： Cost

《推荐系统笔记（十四）》矩阵分解（MF）以及基于矩阵分解的topN推荐

qq_30841655的博客

08-04 891

前言用户评分矩阵往往十分稀疏，为了对这种稀疏矩阵进行补全，充分利用已有数据，我们可以采用矩阵分解办法。实际上，一旦矩阵补全，相当于预测出用户对未购买物品的评分，基于这些评分，我们就可以对任何用户进行推荐。本篇博客将对矩阵分解进行介绍，同时介绍两种常用的用来解决矩阵分解问题的算法SGD（随机梯度下降）和ALS（交叉最小二乘）。这两种优化方法还能用来解决两种简单的推荐算法。我们都将利用movielens数据集，对这些方法进行简单的实战演示。 MF 给定用户评分矩阵Rm×nR_{m\times n}Rm×n

【机器学习】LFM（Latent Factor Model）

你坏坏a大喵

04-20 3074

LFM（Latent Factor Model）参考了[Key_Ky博客](%28http://www.cnblogs.com/Key-Ky/p/3579363.html%29)的潜在矩阵分解的代码，实践了一下。[图及公式取自Harry Huang博客](http://blog.csdn.net/harryhuang1990/article/details/9924377)

【推荐系统系列】使用LFM（Latent factor model）隐语义模型进行Top-N推荐（转载）

SNS程飞的专栏

01-07 1529

原始地址：http://blog.csdn.net/harryhuang1990/article/details/9924377 最近在拜读项亮博士的《推荐系统实践》，系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用，在此做一个总结。隐语义模型LFM和LSI，LDA，Topic Model其实都属于隐含语义分析技术，是一类概念，他们在本质上是

推荐算法LFM

Xafter0的博客

05-31 3023

将每个用户和物品都用一个$K$维向量表示，则某个用户$u$对某个物品$i$的感兴趣程度可以表示为$$r_{ui}=p_u^Tq_i$$其中$p_u$表示用户$u$与$K$个隐含类的关联关系，$q_i$表示物品$i$与$K$个隐含类的关联关系。训练的目标函数为$$min\sum_{(u,i)\in S}(r_{ui}-\hat{r_{ui}})=r_{ui}-p_...

推荐系统之---LFM的各种版本

热门推荐

Ricky

05-14 1万+

1.说明在推荐系统中有两种协同过滤的方式。一种是基于邻域的方式，这种方式又包含了基于用户的和基于物品的，这种方式实现简单，而且效果也是非常的不错，唯一的缺点是对待稀疏矩阵的时候表现乏力。因此诞生了下面的方式。方式二是基于模型的方式，也就是矩阵分解的方式，这种方式将推荐问题转化为了机器学习问题。下面通过一个图来说明，不再详细介绍原理，而是主要分析各种LFM实现的变种上图的大矩阵可以...

个性化推荐算法系统（1）：基于邻域的个性化召回算法LFM（MovieLens数据集电影推荐）

陈宸的博客

06-04 2869

目录一、LFM理论二、LFM实战 2.1 数据处理：read.py 1、得到电影信息 2、得到每部电影平均得分 3、准备LFM数据 2.2LFM主体函数编写：LFM.py 1、初始化向量 2、计算模型预测出用户向量和电影向量之前的距离，欧氏距离 3、得到lfm模型的用户向量和电影向量 4、使用lfm得到的推荐结果，和得分 5、启动函数 6、分析推荐结果的好坏（只是打...