Introduction to Recommender System 之 Module 7 Dimensionality Reduction

imak47

于 2015-12-12 11:52:48 发布

阅读量361

点赞数

分类专栏：推荐系统文章标签： SVD 降维梯度下降法

本文链接：https://blog.csdn.net/imak47/article/details/50273837

版权

推荐系统专栏收录该内容

7 篇文章 0 订阅

订阅专栏

这一讲主要讲的是降维，减少推荐时的计算量。主要分为一下几个方面：
降维推荐的原因
SVD的特点
SVD处理的细节
降维的概率模型

降维推荐的原因

评分矩阵无法识别同义词
很多时候我们需要的是concepts，而非words。而通常的查找相似性的方法都是进行word相似性的查找。
在Information Retrieval领域其实早就对上述的问题进行了解决。Latent Semantic Indexing，主要解决的是语义上的相似性判别，而非字面上的相似度判别（concepts， not words）。他们采用的方法就是Singular Value Decompostion。通过SVD，可以创建一组更加紧凑的隐含特征，通过这些隐含特征再进行下一步的相似性判别。

SVD的特点
SVD，奇异值分解，主要的形式如下：

R = U Σ V T

$\mathbf R = \mathbf U \mathbf \Sigma \mathbf V^T$
其中，

R $\mathbf R$ 是用户整体评分矩阵，维度为

m×n $m\times n$ （

m $m$ 为用户数量，

n $n$ 为物品数量）；

U $\mathbf U$ 是用户的特征矩阵，维度为

m×n $m\times n$ ；

V $\mathbf V$ 是物品的特征矩阵，维度为

n×n $n\times n$ ；

Σ $\mathbf\Sigma$ 是评分矩阵的奇异值矩阵，维度为

n×n $n\times n$ 。
将奇异值中比较小的那些去除，仅仅保留k个最大的奇异值，根据奇异值分解的意义可以知道此时

Um×kΣk×kVTn×k $\mathbf U_{m \times k} \mathbf \Sigma_{k \times k} \mathbf V_{n \times k}^T$ 是

R $\mathbf R$ 的一个RMSE意义上的最有近似，此时，就有下式成立：

R = U m \times k Σ k \times k V T n \times k

$\mathbf R = \mathbf U_{m \times k} \mathbf \Sigma_{k \times k} \mathbf V_{n \times k}^T$
其中，

U $\mathbf U$ 维度为

m×k $m\times k$ ，第

i $i$ 行表示用户

i $i$ 的profile（类似于content based recommender中的profile）；

V $\mathbf V$ 维度为

n×k $n\times k$ ，第

i $i$ 行表示物品

i $i$ 的profile；

Σ $\mathbf\Sigma$ 维度为

k×k $k\times k$ ，

Σ(i,i) $\mathbf \Sigma(i,i)$ 表示第

i $i$ 个特征所占的权重大小。
此时，用户i对物品j的评分就可以表示为：
$$p(i,j) = \sum _l \mathbf U(i,l) \mathbf \Sigma(l,l)\mathbf V(l,j)
采用SVD之后的推荐系统，拥有如下的特点：
减少了数据量（实际上是去除了各个特征之间的耦合，经过筛选出来的隐含特征之间并不存在耦合）：数据少了，计算快了；
但是，也存在如下的挑战：
1 对missing value的处理；
2 SVD的计算量非常大；
3 得到的数据（隐含特征）难以解释（因为这些特征都是隐含的，并不像Content Based中的人工定义的那么直接）。