Mixture-Rank Matrix Approximation(论文阅读笔记)

Mixture-Rank Matrix Approximation(论文阅读笔记)


MRMA can indeed weigh more complex models (e.g., rank=200) higher for movies with more ratings to prevent underfitting, and weigh less complex models (e.g., rank=20) higher for the movies with less ratings to prevent overfitting

论文总体读后感

这篇paper提出的是一种基于矩阵秩来获取近似矩阵的方法。
一方面是因为,前人所使用固定秩的方法,无法取得最好的近似矩阵,另一方面是因为现存的,从其他角度考虑选择子矩阵,虽然提升了性能,但并不是最优。
本文参考了MPMA(Mixture Probablity Matrix Approximation)的一些概念,考虑到不同rank的子矩阵是可以共存的,因此从秩的角度去获取近似矩阵。
实验表明,通过选择不同秩的组合,确实能够提升准确性。

现存的问题

  • 在现有的LRMA方法中,秩k被认为是固定的,即采用相同的秩来描述所有的user-item。
  • 然而,在现实世界,许多的user/item评级矩阵中,如莫维伦斯和Netflix,用户/项目的评级数量显著不同,因此具有不同rank的子矩阵是以共存的。
  • 例如,包含用户和评级很少的ratings的子矩阵应该具有较低的rank,例如10或20,而包含用户和具有较多ratings的项目的子矩阵应该具有相对较高的rank,例如50或100。
  • 对所有用户和项目采用固定的rank,不能完美地建模评级矩阵的内部结构,从而导致不完美的近似,推荐精度下降。

相关工作

PMF, BPMF , APG, GSMF,SMA 这些方法对目标用户项评级矩阵都只采用固定的秩值,是无法实现最优的矩阵近似的。
除了独立矩阵近似方法外,还提出了DFC、LLORMA、wemarec等集成方法以及混合模型,如MPMA等,根据不同的users/items,来考量不同的基础模型,以此提高推荐精度和/或可伸缩性。
但是上述方法,都从未考虑使用不同的秩来获得基础模型。
因此有了MRMA。

本文提出的方案


  • 对于每一个user/item,都用拉普拉斯概率分布来描述其与不同LRMA模型之间的关系。
  • 采用user/item对的联合分布来描述user-item评级与不同的LRMA模型之间的关系。
  • 针对与MRMA相关的非凸优化问题,提出了一种利用迭代条件模式(ICM)的学习算法,这种算法通过迭代地最大化每个变量的概率,得到联合概率的局部最大值。

问题推演


使用到的符号变量

R, U, V表示矩阵

对于目标user-item rating矩阵R∈Rm×n,m表示用户数,n表示项目数
k表示矩阵近似的秩(k要远小于n,m)
R(i,j)表示第i个用户对第j个项目的评分
ˆR(R of head)表示R的低秩近似矩阵
k-rank矩阵近似的一般目标是确定用户和项目的特征矩阵
U ∈ Rm×k,V ∈ Rn×k,such that R ≈ ˆR = (U点乘V的转置)

问题复现

In real-world rating matrices, e.g., Movielens and Netflix, users/items have a varying number of
ratings, so that a lower rank which best describes users/items with less ratings will easily underfit the
users/items with more ratings, and similarly a higher rank will easily overfit the users/items with less
ratings.

使用PMF分别在K=5/50的条件下,然后比较那些评分小于10分且评分超过50分的user/item的均方根误差(RMSEs)。
结果如下:

请添加图片描述

  • 如图所示,当rank=5时,user ratings小于10的user/tiem获得的RMSE低于rank=50时的情况。
  • 这表明,当k=为50时,PMF模型overfit了ratings小于10的user/tiem。
  • 此外,k=50的PMF比k=5的PMF获得了更低的RMSE(更高的准确性),但改进牺牲了用户和少量评级的项目,例如,小于10。

实验过程


  • 将MRMA分别用在三个数据集上: MovieLens 1M dataset;MovieLens 10M dataset ;Netflix
    Prize dataset
  • 将数据集按找9:1的比例随机划分为训练集和测试集
  • All results are reported by averaging over 5 different splits.
  • 使用RMSE衡量准确性
  • 用NDCG来measure the item ranking accuracy of different algorithms
  • convergence threshold = 0.00001,maximum number of iterations=300
  • 使用的rank是{10, 20, 30, …, 300}
  • 将结果与其它6个基于近似矩阵的协同过滤算法进行比较( BPMF,GSMF,LLORMA,WEMAREC,MPMA, SMA)

MRMA中秩取值变化的影响

  • 从1,2,3,…,k这样选取秩,是既不必要,也十分低效的
  • a subset of ranks will be sufficient
  • RMSE decreases when more ranks are adopted in MRMA,because more ranks
    will help users/items better choose the most appropriate components
  • the computation time also increases when more ranks are adopted in MRMA

MRMA VS PMF

请添加图片描述

Mixture-Rank Matrix Approximation vs. Fixed-Rank Matrix Approximation

  • 给定一个固定的秩k,MRMA中对应的秩k模型与PMF相同
  • 比较在不同的rank下,MRMA和PMF的RMSE
  • 学习率是0.01,用户特征正则化因子是0.01,物品特征正则化因子是0.001
    请添加图片描述
  • 从左图观察发现,当K<=100时,PMF随着K的变化,其准确率也在不断波动,并不稳定。因为固定秩的近似矩阵不可能对所有用户和项目都是完美的,因此许多用户和项目在固定秩小于100的情况下是欠拟合的或过拟合的。
  • 当K>100时,K越大PMF的RMSE越小,因为正则化项可以帮助提高泛化能力。
  • 然而,所有等级的PMF的准确率都低于MRMA,因为个体用户/项目可以在MRMA中给具有最优等级的子模型更高的权重,从而缓解过拟合或过拟合。

未来可以尝试的方向


One of the possible extensions of this work is to incorporate other inference methods into learning the MRMA model, e.g., variational inference, because ICM may be trapped in local maxima and therefore cannot achieve global maxima without properly chosen initial values.

Terminology


LRMA(一种矩阵拆分的方法,将稀疏矩阵,转变为稠密矩阵)

  • Low-rank matrix approximation(LRMA)是当今CF methods中最流行的方法之一
  • 给定一个user-item rating matrix ∈Rm×n,LRMA的一般目标是使用SVD,基于给定的秩(这个秩也是要自己找的),找到两个秩=k的矩阵U∈Rm×k和V∈Rn×k,使得原user/item matrix拆分为两个新的子矩阵(两个新矩阵的乘积近似=原矩阵)。
  • 在分别获得用户和item的特征矩阵后,第j个item推荐给第i个用户,对应的推荐得分计算方法为,第i个用户的特征向量,点乘,第j个item的特征向量
  • 在这种方法中, rank k是固定的。

ICM

  • can obtain a local maximum of the joint probability by iteratively
    maximizing the probability of each variable conditioned on the rest.
  • a learning algorithm capitalizing on iterated condition modes
  • 处理与MRMA相关的非凸优化问题

非凸优化问题
实际建模中判断一个最优化问题是不是凸优化问题一般看以下几点:
请添加图片描述

NDCG(Normalized Discounted cumulative gain, 归一化折损累计增益)

  • 高关联度的结果比一般关联度的结果更影响最终的指标得分
  • 有高关联度的结果出现在更靠前的位置的时候,指标会越高

RMSE(Root Mean Square Error)均方根误差,越小越好
衡量观测值与真实值之间的偏差。
常用来作为机器学习模型预测结果衡量的标准。
请添加图片描述

non-trival在论文中的理解方法
The antonym nontrivial is commonly used by engineers and mathematicians to indicate a statement or theorem that is not obvious or easy to prove

SVD和ALS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值