PySpark tutorial 学习笔记5——MLlib及在协同过滤中的应用

最新推荐文章于 2024-06-27 11:55:29 发布

daisyyyyyyyy

最新推荐文章于 2024-06-27 11:55:29 发布

阅读量929

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013129109/article/details/81180063

版权

本文介绍了Apache Spark的MLlib库在Python中的应用，特别是针对协同过滤算法在推荐系统中的使用。PySpark提供了基于模型的协同过滤，通过交替最小二乘(ALS)算法学习潜在因素。文中通过实例展示了如何使用ALS进行协同过滤并评估推荐模型。

摘要由CSDN通过智能技术生成

Apache Spark提供了一个名为MLlib的机器学习API。 PySpark也在Python中使用这个机器学习API。它支持不同类型的算法，如下所述 -

mllib.classification - spark.mllib包支持二分类，多分类和回归分析的各种方法。包含分类中一些最流行的算法如随机森林，朴素贝叶斯，决策树等。

mllib.clustering - 聚类是一种无监督的学习问题，以根据某些相似概念将实体的子集彼此分组。

mllib.fpm - 频繁模式匹配是挖掘频繁项，项集，子序列或其他子结构，这些通常是分析大规模数据集的第一步。多年来，这一直是数据挖掘领域的一个活跃的研究课题。

mllib.linalg - 线性代数的MLlib实用程序。

mllib.recommendation - 协同过滤通常用于推荐系统。这些技术旨在填写用户项关联矩阵的缺失条目。

spark.mllib - 它目前支持基于模型的协同过滤，其中用户和产品由一小组可用于预测缺失条目的潜在因素描述。 spark.mllib使用交替最小二乘（ALS）算法来学习这些潜在因素。

mllib.regression - 线性回归属于回归算法族。回归的目标是找到变量之间的关系和依赖关系。使用线性回归模型和模型摘要的界面类似于逻辑回归案例。

还有其他算法，类和函数也作为mllib包的一部分。截至目前，让我们了解一下pyspark.mllib的演示。

以下示例是使用ALS算法进行协同过滤以构建推荐模型并在训练数据上进行评估。

Dataset used − test.d

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。