matrixFactorization.py

最新推荐文章于 2024-07-17 09:15:39 发布

Taylor George

最新推荐文章于 2024-07-17 09:15:39 发布

阅读量136

点赞数

分类专栏：电影推荐系统文章标签： python

本文链接：https://blog.csdn.net/qq_43350003/article/details/106861613

版权

电影推荐系统专栏收录该内容

9 篇文章 0 订阅

订阅专栏

matrixFactorization.py

这个.py文件的主要功能是根据用户数据去训练SVD并且找到SVD的最佳参数，以便于后期预测。其中利用到的寻参函数是surprise库中search.py文件下对照sklearn库修改的GridSearchCv类，它可以从给定的参数列表中选出对于训练数据下的最佳参数。详情可以参照GridSearchCv
下面是带详细注释的文件源代码：

from MovieLens import MovieLens
import numpy as np
from surprise import SVD
from surprise import NormalPredictor
from Evaluator import Evaluator
from surprise.model_selection import GridSearchCV
import random


# 导入数据集函数
def LoadMovieLensData():
    ml = MovieLens()
    print('Loading movie ratings..')
    data = ml.loadMovieLensDataset()
    # 计算电影的受欢迎程度排名以衡量新颖性
    rankings = ml.getPopularityRanks()
    return ml, data, rankings


# 设置相同的随机数种子，评估函数中将会利用到
np.random.seed(0)
random.seed(0)

# 加载推荐算法的数据集
(ml, evaluationData, rankings) = LoadMovieLensData()

print("searching for the best parameters for svd...")

# 为SVD算法设置需要进行调试的参数，放入GridSearchCV中进行选取最优参
'''
参数解释
n_epochs：SGD（随机梯度下降）算法的迭代次数
n_factors: 因素的数量。默认值为100
lr_all: 所有参数的学习率
'''
param_grid = {'n_epochs': [14, 14], 'lr_all': [0.005, 0.005], 'n_factors': [10, 5]}

# 采用三折交叉验证，指定的评估指标为rmse和mae
gs = GridSearchCV(SVD, param_grid, measures=['rmse', 'mae'], cv=3)

# 用最佳参数模型基于用户评价数据训练
gs.fit(evaluationData)

# 打印最小的均方根误差
print("Best RMSE score attained: ", gs.best_score['rmse'])

# 给出最佳RMSE分数的参数组合
print("Best parameters: ", gs.best_params['rmse'])
    
# 构建一个评估器
evaluator = Evaluator(evaluationData, rankings)

# 将参数设置为最佳参数用于SVD建模，并把模型添加进评估器的算法池中
params = gs.best_params['rmse']
SVDtuned = SVD(n_epochs=params['n_epochs'], lr_all=params['lr_all'], n_factors=params['n_factors'])
evaluator.AddAlgorithm(SVDtuned, "SVD - Tuned")

# 将默认参数的SVD模型放入评估器的算法池
SVDUntuned = SVD()
evaluator.AddAlgorithm(SVDUntuned, "SVD - Untuned")

# 打印所有参数指标，并推荐电影
evaluator.Evaluate(True)
evaluator.SampleTopNRecs(ml)

Taylor George

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
matrixFactorization.py

matrixFactorization.py这个.py文件的主要功能是根据用户数据去训练SVD并且找到SVD的最佳参数，以便于后期预测。其中利用到的寻参函数是surprise库中search.py文件下对照sklearn库修改的GridSearchCv类，它可以从给定的参数列表中选出对于训练数据下的最佳参数。详情可以参照GridSearchCv下面是带详细注释的文件源代码：from MovieLens import MovieLensimport numpy as npfrom surprise
复制链接

扫一扫