Spark ALS推荐系统简单例子(python)

最新推荐文章于 2024-08-01 10:54:58 发布

walk walk

最新推荐文章于 2024-08-01 10:54:58 发布

阅读量1.5k

点赞数

分类专栏： python 数据挖掘 spark 文章标签：人工智能大数据 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dongtest/article/details/84828914

版权

python 同时被 3 个专栏收录

31 篇文章 0 订阅

订阅专栏

30 篇文章 0 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

采用MovieLens 100k数据集 http://files.grouplens.org/datasets/movielens/ml-100k.zip


# -*- coding: utf-8 -*-
# spark-submit movie_rec.py

from pyspark import SparkConf, SparkContext
from pyspark.mllib.recommendation import ALS, Rating

# 获取所有movie名称和id对应集合
def movie_dict(file):
    dict = {}
    with open(file) as f:
        for line in f:
            arr= line.split('|')
            movie_id = int(arr[0])
            movie_name = str(arr[1])
            dict[movie_id] = movie_name
    return dict

# 转换用户评分数据格式
def get_rating(str):
    arr = str.split('\t')
    user_id = int(arr[0])
    movie_id = int(arr[1])
    user_rating = float(arr[2])
    return Rating(user_id, movie_id, user_rating)


conf = SparkConf().setMaster('local').setAppName('MovieRec').set("spark.executor.memory", "512m")
sc = SparkContext(conf=conf)

#加载数据
movies = movie_dict('u.item')
sc.broadcast(movies)
data = sc.textFile('u.data')

# 转换 (user, product, rating) tuple
ratings = data.map(get_rating)

# 建立模型
rank = 10
iterations = 5
model = ALS.train(ratings, rank, iterations)

# 对指定用户ID推荐
userid = 10
user_ratings = ratings.filter(lambda x: x[0] == userid)


#按得分高低推荐前10电影
rec_movies=model.recommendProducts(userid, 10)
print '\n################################\n'   
print 'recommend movies for userid %d:' % userid
for item in rec_movies:
    print 'name:'+movies[item[1]]+'==> score: %.2f' % item[2]
print '\n################################\n'    
sc.stop()

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

walk walk CSDN认证博客专家 CSDN认证企业博客

码龄9年

101: 原创

24万+: 周排名

4万+: 总排名

9万+: 访问

: 等级

1199: 积分

211: 粉丝

251: 获赞

22: 评论

302: 收藏

私信

关注

热门文章

分类专栏

AI大模型 1篇
建站 1篇
uni-app 1篇
selenium 1篇
tensorflow 1篇
php 13篇
javascript 5篇
数据挖掘 30篇
Linux 3篇
java 14篇
lucene 8篇
SEO 1篇
数据库 5篇
c/c++ 2篇
mac 2篇
python 31篇
spark 11篇

最新评论

阿里最新大模型Qwen2-72B-Instruct 开源体验
qq_27960859: 我想问下你部署72B，你硬件配置如何。
python logging 使用kafka进行日志收集
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
使用Ollama简单部署本地Qwen2
袁小钊: 想问一下后面的参数是什么意思，比如7b-instruct-fp16 7b-instruct-g2 K 7b-instruct-g3 K L 7b-instruct-g3 K M 7b-instruct-g3 K S 7b-instruct-q4 0 7b-instruct-g4 1之类的，谢谢~
阿里最新大模型Qwen2-72B-Instruct 开源体验
袁小钊: 想问一下后面的参数是什么意思，比如7b-instruct-fp16 7b-instruct-g2 K 7b-instruct-g3 K L 7b-instruct-g3 K M 7b-instruct-g3 K S 7b-instruct-q4 0 7b-instruct-g4 1之类的，谢谢~
网易有道QAnything使用CPU模式和openAI接口安装部署
walk walk: 后面写错了，应该是bash scripts/run_for_openai_api_with_cpu_in_Linux_or_WSL.sh

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。