【投稿】Machine Learning With Spark Note 2:构建简单的推荐系统

最新推荐文章于 2021-10-17 21:13:26 发布

数据科学家联盟

最新推荐文章于 2021-10-17 21:13:26 发布

阅读量1.8k

点赞数

文章标签： spark 机器学习算法工程师数据

本文链接：https://blog.csdn.net/u013886628/article/details/51828452

版权

本文介绍了使用Spark的MLlib构建推荐系统的过程，包括推荐引擎的应用场景、推荐模型类别，如Matrix Factorization，以及如何使用Alternating Least Squares进行矩阵分解。通过特征提取和相似度计算，展示了如何为用户推荐商品并评估推荐系统的性能。

摘要由CSDN通过智能技术生成

本文为数盟特约作者投稿，欢迎转载，请注明出处“数盟社区”和作者

博主简介：段石石，1号店精准化推荐算法工程师，主要负责1号店用户画像构建，喜欢钻研点Machine Learning的黑科技，对Deep Learning感兴趣，喜欢玩kaggle、看9神，对数据和Machine Learning有兴趣咱们可以一起聊聊，个人博客： hacker.duanshishi.com

Matrix Factorization

MF在Netflix Prize中得到最好的名词，关于MF的一片overview：http://techblog.netflix.com/2012/04/netflix-recommendations-beyond-5-stars.html。

Explicit matrix factorization

user ratings 数据：

以user为行，movie为列构造对应rating matrix：

NewImage

MF就是一种直接建模user-item矩阵的方法，利用两个低维度的小矩阵的乘积来表示，属于一种降维的技术。

如果我们有U个用户，I个items，若不经过MF处理，它看来会使这样的：

NewImage

是一个极其稀疏的矩阵，经过MF处理后，表示为两个维度较小的矩阵相乘：

NewImage

这类模型被称为latent feature models，旨在寻找那些潜在的特征，来间接表示user-item rating的矩阵。这类潜在的features并不直接建模user对item的rating关系，而是通过latent features更趋近于建模用户对某类items的偏好，例如某类影片、风格等等，而这些事通过MF寻找其内在的信息，无需items的详细描述（和基于content的方法不同）。

MF模型如何计算一个user对某个item的偏好，对应向量相乘即可：

NewImage

如何计算两个item的相似度：

NewImage

MF模型的好处是一旦模型创建好后，predict变得十分容易，并且性能也很好，但是在海量的用户和itemset时，存储和生产MF中的如上图的这两个矩阵会变得具有挑战性。

Implicit matrix factorization

前面我们都在讨论显式的一些偏好信息，比如rating，但是在大部分应用中，拿不到这类信息，我们更多滴搜集的是一些隐性的反馈信息，这类反馈信息没有明确地告诉某个用户对某个item的偏好信息，但是却可以从用户对某个item的交互信息中建模出来，例如一些二值特征，包括是否浏览过、是否购买过产品、以及多少次看过某部电影等等。

MLlib中提供了一种处理这类隐性特征的方法，将前面的输入ratings矩阵其实可以看做是两个矩阵：二值偏好矩阵P和信心权重矩阵C；

举个例子：假定我们的网站上面没有设计对movie的rating部分，只能通过log查看到用户是否观看过影片，然后通过后期处理，可以看出他观看到过多少次某部影片，这里P来表示影片是否被某用户看过，C来描述这里的confidence weighting也就是观看的次数：

NewImage

这里我们把P和C的dot product来替代前面的rating矩阵，那么我们最终建模来预估某用户对item的偏好

Alternating least squares

ALS是解决MF问题的一个优化技术，被证明高效、高性能并且能有效地并行化，目前为止，是MLlib中推荐模块的唯一一个算法。Spark官网上有专门地描述。

特征提取

特征提取是从已有数据中找到有用的数据来对算法进行建模，本文中使用显式数据也就是用户对movie的rating信息，这个数据来源于网络上的MovieLens标准数据集，以下代码为《Machine Learning with Spark》这本书里面的python的重写版本，会有专门的ipython notebook放到github上。

 
            1 
          
            2 
          
            3 
          
            4 
          
           rawData 
             
           = 
             
           sc 
           . 
           textFile 
           ( 
           "../data/ML_spark/MovieLens/u.data" 
           ) 
          
           print 
             
           rawData 
           . 
           first 
           ( 
           ) 
          
           rawRatings 
             
           = 
             
           rawData 
           . 
           map 
           ( 
           lambda 
             
           x 
           : 
             
           x 
           . 
           split 
           ( 
           '\t' 
           ) 
           ) 
          
           rawRatings 
           . 
           take 
           ( 
           5 
           )

NewImage

数据分别是userId，itemId，rating和timestamp。

 
      
    
 
     
      
        
            1 
          

            2 
          

            3 
          

            4 
          

         
           from 
             
           pyspark 
           . 
           mllib 
           . 
           recommendation  
           import 
             
           Rating 
          
 
           from 
             
           pyspark 
           . 
           mllib 
           . 
           recommendation  
           import 
             
           ALS 
          
 
           ratings 
             
           = 
             
           rawRatings 
           . 
           map 
           ( 
           lambda 
             
           x 
             
           : 
             
           Rating 
           ( 
           int 
           ( 
           x 
           [ 
           0 
           ] 
           ) 
           , 
           int 
           ( 
           x 
           [ 
           1 
           ] 
           ) 
           , 
           float 
           ( 
           x 
           [ 
           2 
           ] 
           ) 
           ) 
           ) 
          
 
           print 
             
           ratings 
           . 
           first 
           ( 
           ) 
          

       

      
    

格式化数据，用于后面建模数据，导入Rating，ALS模块，下面是ALS类的使用说明：

NewImage

其中rank就是上面latent feature model中矩阵的k，在下面的实验中，我们设为50：

 
            1 
          
            2 
          
            3 
          
            4 
          
           model 
             
           = 
             
           ALS 
           . 
           train 
           ( 
           ratings 
           , 
           50 
           ) 
          
           # modelImplicit = ALS.(ratings,50,alpha=0.02)

最低0.47元/天解锁文章

数据科学家联盟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【投稿】Machine Learning With Spark Note 2:构建简单的推荐系统

本文为数盟特约作者投稿，欢迎转载，请注明出处“数盟社区”和作者博主简介：段石石，1号店精准化推荐算法工程师，主要负责1号店用户画像构建，喜欢钻研点Machine Learning的黑科技，对Deep Learning感兴趣，喜欢玩kaggle、看9神，对数据和Machine Learning有兴趣咱们可以一起聊聊，个人博客： hacker.duanshishi.com推荐引擎应用场
复制链接

扫一扫