Low Rank Matrix Factorization低阶矩阵分解
在上一篇笔记之二里面说到我们有五部电影,以及四位用户,每个用户对电影的评分如下,?表示未评分。
Movies\User | User 1 | User 2 | User 3 | User 4 |
---|---|---|---|---|
Movie 1 | 5 | 5 | 0 | 0 |
Movie 2 | 5 | ? | ? | 0 |
Movie 3 | ? | 4 | 0 | ? |
Movie 4 | 0 | 0 | 5 | 4 |
Movie 5 | 0 | 0 | 5 | ? |
那么我们可以把第一个表格里的内容转化成一个矩阵R:
把参数θ和特征变量x也都表示成向量的形式:
那么我们有: R=ΘTX R = Θ T X ,这种方法被称为:低秩矩阵分解(Low Rank Matrix Factorization)。
相关应用:
- 找电影i相似的电影j:可以计算 ‖‖x(i)−x(j)‖‖ ‖ x ( i ) − x ( j ) ‖ 两个特征向量的距离,其中距离最小的就是最相似的电影。
LFM (Latent Factor Model) 隐因子模型
接下来引申到LFM (Latent Factor Model) 隐因子模型,其中隐因子可以理解为一个用户喜欢一个电影的隐形原因,比如电影里面有他喜欢的romantic和action元素,还有他喜欢的某个演员或者导演编剧。如果另外一个电影有类似的元素跟演员,那么他很有可能会也喜欢这部电影。LFM的核心思路就是求出用户的θ向量和电影的x向量。
在评分矩阵
Rm,n
R
m
,
n
中,LFM中认为评分矩阵可以表示为
Rm,n=Pm,F⋅QF,n
R
m
,
n
=
P
m
,
F
⋅
Q
F
,
n
即两个矩阵的乘积,其中F为隐因子的个数。我们设
r̂ ui
r
^
u
i
为用户u对物品i的评分。
我们的目标是减少 r̂ ui r ^ u i 与 rui r u i 之间的差距,并且为了防止过拟合加入了正则项。
通过梯度下降对代价函数求偏导,可以得出:
在上一步可以使用随机梯度下降方法(SGD,Stochastic Gradient Descent),它比传统的梯度下降法需要更少的迭代次数就可以收敛,这里就不详细阐述了。
SVD (singular value decomposition) 奇异值分解
SVD的数学意义和理解可以参考这篇博客
这里的SVD推荐本质上是model-based,跟传统数学意义的SVD没有太大关系,只不过借鉴了SVD分解 R=U∗S∗V R = U ∗ S ∗ V 这个形式,通过最优化方法进行模型拟合,求得 R=U∗V R = U ∗ V 。
我们在刚刚上面提到的
r̂ ui
r
^
u
i
中加入偏置项:
其中μ表示训练集中物品的所有评分的平均值。 bu b u 是用户偏置项,表示一个用户评分的平均值。 bi b i 是物品偏置项,表示一个物品被评分的平均值。偏置项是固有属性,每个用户和物品都有自己的值,代表该物品是否被大众喜爱程度或某个用户对物品苛刻程度。
带偏置的LFM又被称为SVD。加入偏置项之后我们可以得到新的代价函数:
SVD++ / TIME SVD ++
我们从上一步的BiasLFM(即SVD)继续演化就可以得到SVD++。
SVD++:User对Item i 有评分,则反映他对各个隐因子的喜好程度
yi=(yi1,yi2,...,yiF)
y
i
=
(
y
i
1
,
y
i
2
,
.
.
.
,
y
i
F
)
,是物品所携带的属性。
其中 Nu N u 为User u 评价过的物品集合。
使用随机梯度下降可以求得Q与Y的偏导
其他偏导于SVD的一样,收缩因子取集合大小的根号是一个经验公式,并没有理论依据。
TIME SVD ++: 添加了时间动态,这里就不详细阐述了~
矩阵分解优劣势
主要的优势如下:
- 比较容易编程实现,随机梯度下降方法依次迭代即可训练出模型。
- 预测的精度比较高,预测准确率要高于基于领域的协同过滤以及基于内容CBR等方法。
- 比较低的时间和空间复杂度,高维矩阵映射为两个低维矩阵节省了存储空间,训练过程比较费时,但是可以离线完成;评分预测一般在线计算,直接使用离线训练得到的参数,可以实时推荐。
- 非常好的扩展性,如由SVD拓展而来的SVD++和 TIME SVD++。
矩阵分解的不足主要有:
- 训练模型较为费时。
- 推荐结果不具有很好的可解释性,无法用现实概念给分解出来的用户和物品矩阵的每个维度命名,只能理解为潜在语义空间。