PySpark tutorial 学习笔记5——MLlib及在协同过滤中的应用

本文介绍了Apache Spark的MLlib库在Python中的应用,特别是针对协同过滤算法在推荐系统中的使用。PySpark提供了基于模型的协同过滤,通过交替最小二乘(ALS)算法学习潜在因素。文中通过实例展示了如何使用ALS进行协同过滤并评估推荐模型。
摘要由CSDN通过智能技术生成

Apache Spark提供了一个名为MLlib的机器学习API。 PySpark也在Python中使用这个机器学习API。它支持不同类型的算法,如下所述 - 

mllib.classification - spark.mllib包支持二分类,多分类和回归分析的各种方法。包含分类中一些最流行的算法如随机森林,朴素贝叶斯,决策树等。

mllib.clustering - 聚类是一种无监督的学习问题,以根据某些相似概念将实体的子集彼此分组。

mllib.fpm - 频繁模式匹配是挖掘频繁项,项集,子序列或其他子结构,这些通常是分析大规模数据集的第一步。多年来,这一直是数据挖掘领域的一个活跃的研究课题。

mllib.linalg - 线性代数的MLlib实用程序。

mllib.recommendation - 协同过滤通常用于推荐系统。这些技术旨在填写用户项关联矩阵的缺失条目。

spark.mllib - 它目前支持基于模型的协同过滤,其中用户和产品由一小组可用于预测缺失条目的潜在因素描述。 spark.mllib使用交替最小二乘(ALS)算法来学习这些潜在因素。

mllib.regression - 线性回归属于回归算法族。回归的目标是找到变量之间的关系和依赖关系。使用线性回归模型和模型摘要的界面类似于逻辑回归案例。

还有其他算法,类和函数也作为mllib包的一部分。截至目前,让我们了解一下pyspark.mllib的演示。

以下示例是使用ALS算法进行协同过滤以构建推荐模型并在训练数据上进行评估。

Dataset used − test.d
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值