机器学习(5) 推荐 矩阵分解(Matrix Factorization)

稍微看了一些关于推荐方面的资料,做一下简单的总结。


推荐任务定义:

在一个标准推荐任务中,我们有 m 个用户(user),n个物品(item),以及一个稀疏评分矩阵 R(RRmn) R 中每个Rij表示用户 i 对于物品j的评分。如果 Rij0 ,那么说明用户 i 有对物品j的评分,反之则没有。每一个用户 i 可以用向量sui=(Ri1,Ri2,...,Rin)表示,同样地,每一个物品 j 可以用向量sij=R1j,...,Rmj表示。对于用户和物品各自的边信息(side information)矩阵,则分别用 XRmp YRnq 表示。

ui,vjRk ,其中 ui 为用户 i 的隐因子向量(latent factor vector),vj则是物品 j 的隐因子向量(latent factor vector),k是隐空间的维度。因而,对于用户和物品来说,对应的隐因子向量形式分别是 U=u1:m V=v1:n 。由于 R=UV ,所以如果能够求出 U V的话,那么我们可以求出一个非稀疏的评分矩阵 R 出来。

给定一个稀疏的评分矩阵R,以及边信息矩阵 X Y,我们的目标是学习出 U V,从而预测出 R 中缺失的评分。(这也叫矩阵的UV分解)


矩阵分解

矩阵分解的思想很简单,对于用户-物品这个评分矩阵R,我们可以将其分解为用户-特性矩阵,以及特性-物品矩阵。这样做的好处有两点:
1. 得到了用户的偏好,以及物品的特性
2. 降低了矩阵的维度。
举个例子,比如音乐推荐。我们比如有3个用户(u表示),4首音乐(m表示)。

u1u2u3m1wum21m2wum12m3wum32m4

可以想到,在真实的场景中,这个矩阵是极其稀疏的,对于庞大的音乐库来说,每个用户听过的曲目都是极小的一部分。并且由于用户数量和音乐数量极大,所以这个 R 实际上是一个极大的矩阵。
现在假设音乐的风格有以下几类:摇滚,重金属,民谣,说唱,轻音乐。分别用s1,s2,s3,s4,s5来表示。那么我们希冀得到用户对于风格偏好的矩阵 Q ,以及每个风格在歌曲中所占比重的矩阵P
u1u2u3s1wus11wus21wus31s2wus12wus22wus32s3wus13wus23wus33s4wus14wus24wus34s5wus15wus25wus35s1s2s3s4s5m1wsm11wsm21wsm31wsm41wsm51m2wsm12wsm22wsm32wsm42wsm52m3wsm13wsm23wsm33wsm43wsm53m4wsm14wsm24wsm34wsm44wsm54

通过这两个矩阵,我们就可以计算出 ui mi 的评分:
wumij=h=15wusihwsmhj,5

通过这种方式,我们即可补全矩阵R。

现在的问题是,如何求出矩阵 Q P呢?
很简单的做法,我们可以通过迭代的方式,逐步使得 R~=QPT 与R之间的距离变小。设置loss函数,然后使用梯度下降法。loss函数设置如下:

arg minQ,P=L(R,QPT)+λ(||Q||2F+||P||2F)

其中 L(,) 是衡量两个矩阵之间距离的loss函数,而 (||Q||2F+||P||2F) 则是正则项,用来约束参数,避免过拟合。 ||||F 是F-范数。这就是最基本的矩阵分解的思想和做法,后面有更进一步,比如考虑多种因素的,引入历史信息的,引入时间信息的。可以参见 这篇博客


F-范数:

A=(aij)nnCnn ,令

||A||F=(i=nni=nn|aij|2)12

||A||F 是一种与向量的2-范数 ||x||2 相容的方针范数,称其为方阵A的Frobenius范数,简称F-范数。看这个形式,其实跟L2范数的计算方式一模一样嘛。但是L2范数是没有限制矩阵的形状的,而F范数必须是个方阵。
关于L2范数为什么可以起到正则化的效果,可以参见 这篇博客,个人觉得讲的非常好,浅显易懂。佩服~

  • 10
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
非负矩阵分解(Nonnegative Matrix Factorization,NMF)是一种用于数据降维和特征提取的有效方法。近期IEEE的ICASSP会议中,对非负矩阵分解的研究取得了一系列的进展。 一方面,近期的研究推动了非负矩阵分解在各种领域的应用。例如,在音频信号处理中,研究者们使用非负矩阵分解来从混合音频中分离出不同的音频源。这种方法在语音识别、音乐分析等领域有着广泛的应用。此外,在图像处理中,非负矩阵分解也被用于图像压缩、目标识别等任务中。 另一方面,针对非负矩阵分解的算法优化也取得了显著的进展。研究人员提出了一些新的目标函数和约束条件,以提高非负矩阵分解的性能。例如,通过引入稀疏性约束,研究者们可以更好地处理高维数据,并提取出更具有代表性的特征。此外,还有一些基于梯度下降和交替最小化的优化算法被提出,以加速非负矩阵分解的计算过程。 非负矩阵分解机器学习和模式识别领域也备受关注。研究人员探索了将非负矩阵分解与其他机器学习方法相结合的可能性。例如,将非负矩阵分解应用于协同过滤中,可以提高推荐系统的准确性。此外,研究人员还探索了将非负矩阵分解深度学习相结合的方法,以提高图像和音频处理的性能。 综上所述,IEEE ICASSP会议上关于非负矩阵分解的最新研究成果,不仅推动了该方法在多个领域的应用,还通过算法优化和和其他方法的结合,提高了非负矩阵分解的性能和应用范围。这些进展为我们更好地利用非负矩阵分解来处理和分析数据提供了新的思路和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值