问题描述
在这里,我们将谈论的问题是评级预测问题。我们的数据是评级历史数据,即用户对项目的评级,值区间是[1,5]。我们可以把数据放在一个稀疏矩阵R
中:
矩阵的每一行对应一个给定用户,每一列对应一个给定项目。譬如,在上面的矩阵中,Alice对第一个项目的评级是1,Charlie对第三个项目的评级是4。在我们的问题中,我们将认为项目是电影,(电商领域是商品),在后面会交替使用“项目”和“电影”这两个术语。
SVD矩阵分解
如果 R R 是密集的,我们可以很容易计算:
- M M 的列是的特征向量
- The columns of M M can build back all of the columns of
- U U 的列是的特征向量。
- The columns of U U can build back all of the rows of
- Σ Σ 的对角元素来源于 RRT或RTR R R T 或 R T R 的特征值的平方根,并且是按从大到小的顺序排列的
但是, R R 是稀疏的,矩阵和 RTR R T R 并不存在,所以它们的特征向量也不存在,而且我们不能把 R R 分解为的乘积。但是,有一些办法。曾被用过一段时间的第一个选择是,对 R R 的缺失内容进行填充,如,行(或列)的平均值。一旦得到密集矩阵,我们就可以用传统算法来计算其SVD。这种方法可行,但结果往往有很高的偏见。我们宁愿用另外一种方法,基于最小化问题。
代替方法
计算和
RTR
R
T
R
的特征向量并不是计算密集矩阵
R
R
的SVD的唯一方法。实际上,我们可以找到矩阵和
U
U
,如果我们能找到所有满足如下条件的向量和
qi
q
i
(
pu组成M的行,qi组成UT的列
p
u
组
成
M
的
行
,
q
i
组
成
U
T
的
列
):
由于定义矩阵乘法的定义方式,rui的值是两个向量的点积的结果:向量 pu p u ,它是 M M 的一行,特定于用户;向量 qi q i ,它是 UT U T 的列,特定于项目 i i
- 对所有的u和i,
- 所有的向量 pu p u 是相互正交的,所有的向量 qi q i 也如此。
对所有users和items,找出这种向量 pu和qi p u 和 q i ,可通过解决下面的优化问题(同时遵循正交约束)来完成:
minpu,qipu⊥pvqi⊥qj∑rui∈R(rui−pu⋅qi)2 min p u , q i p u ⊥ p v q i ⊥ q j ∑ r u i ∈ R ( r u i − p u ⋅ q i ) 2它可被理解为,找到向量 pu p u 和 qi q i 使得与 rui r u i 差总和最小。也就是说,我们试图尽可能将 rui r u i 的值与 pu⋅qi p u ⋅ q i 相等。
那么当R稀疏时,即当矩阵中某些评级缺失时,我们该怎么办? Simon Funk的答案是我们应该不要废弃。我们仍然解决同样的优化问题:
minpu,qi∑rui∈R(rui−pu⋅qi)2. min p u , q i ∑ r u i ∈ R ( r u i − p u ⋅ q i ) 2 .唯一的区别是,这次,某些评级是缺失的,即 R R 不完整。请注意,我们并没有将缺少的项目视为零:我们纯粹是忽略它们。此外,我们将会忘记正交性约束,因为即使它们对于解释有用,通常,限制向量也不能帮助我们获得更准确的预测。
梯度下降一般形式
当带参数的函数 f f 被表示如下时:
SGD过程通过下列步骤来最小化 f f (即,找到使得 f(θ) f ( θ ) 尽可能小):
- 随机初始化 θ θ
- 对于给定的次数,重复下面的步骤:
- 对于所有,重复以下步骤:
- 计算 ∂fk∂θ ∂ f k ∂ θ
- 更新 θ←θ−α⋅∂fk∂θ θ ← θ − α ⋅ ∂ f k ∂ θ ,其中 α α 是学习速率(一个很小的值)。
- 对于所有,重复以下步骤:
推荐系统梯度下降求解:
- 在我们的情况下,参数对应于所有的向量 pu p u 和 qi q i (我们将其表示为( p∗,q∗ p ∗ , q ∗ )),而我们想最小化的函数 f f 表示为
其中 fui f u i 被定义为: fui(pu,qi)=(rui−pu⋅qi)2 f u i ( p u , q i ) = ( r u i − p u ⋅ q i ) 2
向量 pu p u 关于函数 fui f u i 的偏导为:
∂fui∂pu=∂∂pu(rui−pu⋅qi)2=−2qi(rui−pu⋅qi) ∂ f u i ∂ p u = ∂ ∂ p u ( r u i − p u ⋅ q i ) 2 = − 2 q i ( r u i − p u ⋅ q i )向量 qi q i 关于函数 fui f u i 的偏导为:
∂fui∂qi=∂∂qi(rui−pu⋅qi)2=−2pu(rui−pu⋅qi) ∂ f u i ∂ q i = ∂ ∂ q i ( r u i − p u ⋅ q i ) 2 = − 2 p u ( r u i − p u ⋅ q i )
算法实现
求解步骤如下:
- 随机初始化所有的向量 pu p u 和 qi q i 。
- 对给定的次数(如,迭代数),重复下面的步骤:
- 对所有已知的评级
rui
r
u
i
,重复下面的步骤:
- 计算 ∂fui∂pu ∂ f u i ∂ p u 和 ∂fui∂qi ∂ f u i ∂ q i
- 更新 pu和qi p u 和 q i : pu←pu+α⋅qi(rui−pu⋅qi) p u ← p u + α ⋅ q i ( r u i − p u ⋅ q i ) , qi←qi+α⋅pu(rui−pu⋅qi) q i ← q i + α ⋅ p u ( r u i − p u ⋅ q i )
- 对所有已知的评级
rui
r
u
i
,重复下面的步骤:
核心代码:
def SGD(data): '''Learn the vectors p_u and q_i with SGD. data is a dataset containing all ratings + some useful info (e.g. number of items/users). u i r_ui 0 0 4.0 #更新p的第0行和q的第0行 0 306 4.0 #更新p的第0行和q的第306行 0 413 1.0 0 581 3.0 0 255 5.0 ''' n_factors = 10 # number of factors alpha = .01 # learning rate n_epochs = 10 # number of iteration of the SGD procedure # Randomly initialize the user and item factors. p = np.random.normal(0, .1, (data.n_users, n_factors)) q = np.random.normal(0, .1, (data.n_items, n_factors)) # Optimization procedure for _ in range(n_epochs): for u, i, r_ui in data.all_ratings(): err = r_ui - np.dot(p[u], q[i]) # Update vectors p_u and q_i p[u] += alpha * err * q[i] q[i] += alpha * err * p[u]
一旦我们运行SGD过程,就可以估计所有的向量 pu p u 和 qi q i 的点积来预测所有的评级:
def estimate(u, i): '''Estimate rating of user u for item i.''' return np.dot(p[u], q[i])
算法评估
RMSE=∑u,i(r^ui−rui)2−−−−−−−−−−−−√. RMSE = ∑ u , i ( r ^ u i − r u i ) 2 .参考
中文参考: http://www.infoq.com/cn/articles/matrix-decomposition-of-recommend-system
英文原文: http://nicolas-hug.com/blog/