大数据进阶之协同过滤推荐算法——SparkML ALS交替最小二乘法

最新推荐文章于 2024-05-15 19:55:18 发布

Clozzz

最新推荐文章于 2024-05-15 19:55:18 发布

阅读量901

点赞数

分类专栏：机器学习文章标签：机器学习协同过滤算法

本文链接：https://blog.csdn.net/Clozzz/article/details/109212177

版权

机器学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

算法介绍：

ALS是交替最小二乘法的简称，ALS特指使用交替最小二乘求解的一个协同过滤的推荐算法。通过观察用户对购买商品的评价，来推断每个用户的喜好并向用户推荐合适的商品。

案例解析：

	西游记	水浒传	红楼梦	三国演义	简爱
用户1	3	7	4		8
用户2	2		5
用户3				6
用户4		7		4	1

上表所描述的是一个用户对几本名著的一个评分结果。近似的可以理解成为一个矩阵。在现实的生产环境中，矩阵的行和列都会非常大，ALS的基本思想就是将一个很大的矩阵拆分分成以两个维度为准的小矩阵。
可以大致的这么理解：
在这里插入图片描述

两个矩阵相乘的结果大小为第一个矩阵的行数X第二个矩阵的列数

U矩阵如下：

	性格	年龄	兴趣
用户1	U11	U12	U13
用户2	U21	U22	U23
用户3	U31	U32	U33
用户4	U41	U42	U43

B矩阵如下：

	西游记	水浒传	红楼梦	三国演义	简爱
性格	B11	B12	B13	B14	B15
年龄	B21	B22	B23	B24	B25
兴趣	B31	B32	B33	B34	B35

K值为超参数
仔细的人或许发现是R约等于U*B，为什么是约等于呢？因为对于一个U矩阵来说，我们并不可能说（性格，年龄，兴趣）这三个属性就代表着一个人对一部名著评价全部的属性，可能还会有一些其他的影响因素。但是我们可以用“主成分分析的思想”来近似（我没有从纯数学角度来谈，是为了大家更好理解）。这也是ALS和核心：一个评分矩阵可以用两个小矩阵来近似（ALS是NNMF问题下在丢失数据情况下的一个重要手段）。
理想化状态：

R=U*B

但是现实生活中并非理想状态，事实证明每一次的迭代结果都会跟原有的结果有一定的差距，则会产生损失函数：
在这里插入图片描述
为防止出现过拟合现象，需要在损失函数中加入正则化参数(其中λ为正则项系数)：

对于ALS来求解这样這个问题的思想是：先固定U或者B,然后就转化为最小二乘法的问题了。他这样做就可以把一个非凸函数的问题转为二次函数的问题了。下面就求解步骤：
步骤1：初始化矩阵B（可以取平均值也可以随机取值）
步骤2：固定B，然后通过最小化误差函数(RMSE)解决求解U
步骤3：固定步骤2中的U，然后通过最小化误差函数(RMSE)解决求解B
步骤4：反复步骤2，3；直到U和V收敛或达到最大迭代次数。

SparkML实现：

原始数据：
在这里插入图片描述

//    将数据放入Rating集合中
    val alldata = df.rdd.map(row=>{
      Rating(row.getAs("uid").toString.toInt,row.getAs("gid").toString.toInt,row.getAs("score").toString.toFloat)
    })

    val model = new ALS().setRank(10).setIterations(20).setLambda(0.01).setImplicitPrefs(false).run(alldata)

//    对模型进行测试
    val tj = model.recommendProductsForUsers(30)
    tj.flatMap{
      case(user:Int,ratings:Array[Rating])=>
      ratings.map{case(rat:Rating)=>(user,rat.product,rat.rating)}
    }.foreach(println)

计算结果：
在这里插入图片描述
模型中的超参数意义：

参数	意义
setRank	拆分集合的K值(特征列数量)
setIterations	模型最大迭代次数
setLambda	为防止过拟合的值，默认为0.01，值越大，越能避免过拟合现象
setImplicitPrefs	是否开启隐式评分矩阵

Clozzz

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大数据进阶之协同过滤推荐算法——SparkML ALS交替最小二乘法

算法介绍：ALS是交替最小二乘法的简称，ALS特指使用交替最小二乘求解的一个协同过滤的推荐算法。通过观察用户对购买商品的评价，来推断每个用户的喜好并向用户推荐合适的商品。案例解析：西游记水浒传红楼梦三国演义简爱用户13748用户225用户36用户4741上表所描述的是一个用户对几本名著的一个评分结果。近似的可以理解成为一个矩阵。在现实的生产环境中，矩阵的行和列都会非常大，ALS的基本思想就是将一个很大的矩阵拆分
复制链接

扫一扫

专栏目录