pyspark实现ALS矩阵分解算法

最新推荐文章于 2021-04-05 17:33:06 发布

Chungchinkei

最新推荐文章于 2021-04-05 17:33:06 发布

阅读量1.4k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_39315740/article/details/99298947

版权

该博客通过PySpark展示了如何利用ALS算法进行矩阵分解，具体以MovieLens的ml-100k数据集为例，提供了从数据准备到运行推荐算法的详细步骤。

摘要由CSDN通过智能技术生成

准备工作

本例使用MovieLens ml-100k数据集实现ALS矩阵分解算法，附上数据集下载链接.

推荐算法实例

打开jupyter notebook，新建一个Python3 notebook:

import os
import sys
# 动态加载pyspark目录
SPARK_HOME = os.environ.get('SPARK_HOME')
sys.path.insert(0,os.path.join(SPARK_HOME, 'python'))
sys.path.insert(0,os.path.join(SPARK_HOME, 'python/lib/py4j-0.10.7-src.zip'))
# exec(open(os.path.join(SPARK_HOME, 'python/pyspark/shell.py')).read())

# 创建实例
from pyspark import SparkContext
sc = SparkContext('local','ALS')

# 读取u.data
# 默认是从hdfs上读取文件，因此加上file:，表示本地路径
user_data = sc.textFile('file:/usr/local/test/u.data')
user_data.first()
'196\t242\t3\t881250949'

# 4项对应user_id、item_id 、rating和timestamp，以\t作为分隔符
# 时间戳用不上，截取前三项
rate = user_data.map(lambda x: x.split("\t")[0:3])
rate.first()
['196', '242', '3']

# 转换成Rating格式
from pyspark.mllib.recommendation import Rating
rate_data = rate.map(lambda x: Rating(int(x[

最低0.47元/天解锁文章

Chungchinkei

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
pyspark实现ALS矩阵分解算法

准备工作本例使用MovieLens ml-100k数据集实现ALS矩阵分解算法，附上数据集下载链接.推荐算法实例打开jupyter notebook，新建一个Python3 notebook:import osimport sys# 动态加载pyspark目录SPARK_HOME = os.environ.get('SPARK_HOME')sys.path.insert(0,os...
复制链接

扫一扫

专栏目录