工作回顾
前面我们已经基于Spark设计并实现了常见的分布式矩阵操作,主要包括BLAS1-2的操作,如矩阵相加、相减、相乘等。
接下来的一阶段,我们的工作分类两部分。第一,继续完善基本操作,比如支持一些向量的操作;第二,实现1、2个高级矩阵操作,如矩阵的分解等等。
高级矩阵操作
矩阵的分解操作是众多矩阵高级操作中的一类被广泛研究的操作。很多高级矩阵操作(如矩阵求逆)可以转换为矩阵的分解。本周我们介绍并引入MLlib为实现协同过滤算法而包含的矩阵分解算法——Alternating Least Squares (ALS).
ALS将推荐系统中的评分矩阵看成是有一个low-rank 矩阵和商品矩阵因子相乘得到。算法通过已经观察到的评分数据学习出这两个因子,学习的约束是尽量降低重构出矩阵的误差。一旦我们学习出这两个子矩阵,原来矩阵中其他的元素就可以通过这两个因子相乘得到.ALS是一个迭代的算法,每轮计算过程中算法固定住其中一个因子去优化另一个(这一点和EM很像),不断交替直到收敛。该算法已经在Mllib里面有包含,并在底层采用了LAPACK包进行了优化。