java als算法实现_Spark笔记(2)：基于模型的协同过滤算法ALS简单实现

最新推荐文章于 2022-10-19 13:58:15 发布

硍鯀睔鮌

最新推荐文章于 2022-10-19 13:58:15 发布

阅读量714

点赞数

文章标签： java als算法实现

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34695463/article/details/114998278

版权

本文介绍了协同过滤算法的基本原理，重点讲解了Spark中使用ALS算法进行矩阵分解的过程，包括算法的目标函数、优化方法以及ALS的具体步骤。通过Spark MLlib库展示了如何设置和训练ALS模型，并提供了本地实例代码，最后展示了预测结果。

摘要由CSDN通过智能技术生成

spark

算法原理

协同过滤是用来对用户的兴趣偏好做预测的一种方法。在Spark中实现的是基于潜在因子模型的协同过滤。用户对特定物品的偏好往往可以用评分的形式给出，评分矩阵r的行数对应用户数量，列数对应物品总数，比如以下4个用户对四个电影评分：

7f71a6b8a98a

本方法的核心在于把评分矩阵分解为用户偏好矩阵(x)和物品偏好因子矩阵(y)：

7f71a6b8a98a

我们的目标是找到最佳的x和y矩阵，使得这两个矩阵相乘时得到的预测矩阵与原始评分矩阵r之间的误差最小。转化为数学描述，就是使得以下目标函数最小化：

7f71a6b8a98a

该目标函数由两部分构成，前半部分是平方误差，后半部分使用L2正则化，引入 λ 常数，对模型的复杂度进行控制，防止过度拟合训练数据。

Spark使用的是带正则化矩阵分解，优化函数的方式选用的是交叉最小二乘法ALS(alternative least squares)，它的一般执行步骤如下：

用随机数初始化物品偏好因子矩阵y

固定y，找到可以最小化目标函数的用户偏好矩阵x

固定x，类同步骤2，找到最小化目标函数的物品偏好因子矩阵y

重复步骤2和3，直到满足算法收敛条件

ALS spark mllib 代码

参数详解：

输入参数名称

数据格式

必填／可选／固定

默认值

取值范围

备注

userCol

String

必填

用户ID

itemCol

String

必填

物品ID

ratingCol

String

必填

用户给物品的评分列

rank

Int

可选

10

≥1

潜在因子数量，最优值需要根据具体数据制定

maxIter

Int

可选

10

≥0

最大循环次数

lambda

Double

可选

0.01

≥0

正则化参数 λ

numUserBlocks

Int

可选

10

≥1

把用户偏好矩阵拆分成小块以满足并行化需求

numItemBlocks

Int

可选

10

≥1

把物品偏好因子矩阵拆分成块以满足并行

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。