matrixFactorization.py
这个.py文件的主要功能是根据用户数据去训练SVD并且找到SVD的最佳参数,以便于后期预测。其中利用到的寻参函数是surprise库中search.py文件下对照sklearn库修改的GridSearchCv类,它可以从给定的参数列表中选出对于训练数据下的最佳参数。详情可以参照GridSearchCv
下面是带详细注释的文件源代码:
from MovieLens import MovieLens
import numpy as np
from surprise import SVD
from surprise import NormalPredictor
from Evaluator import Evaluator
from surprise.model_selection import GridSearchCV
import random
# 导入数据集函数
def LoadMovieLensData():
ml = MovieLens()
print('Loading movie ratings..')
data = ml.loadMovieLensDataset()
# 计算电影的受欢迎程度排名以衡量新颖性
rankings = ml.getPopularityRanks()
return ml, data, rankings
# 设置相同的随机数种子,评估函数中将会利用到
np.random.seed(0)
random.seed(0)
# 加载推荐算法的数据集
(ml, evaluationData, rankings) = LoadMovieLensData()
print("searching for the best parameters for svd...")
# 为SVD算法设置需要进行调试的参数,放入GridSearchCV中进行选取最优参
'''
参数解释
n_epochs:SGD(随机梯度下降)算法的迭代次数
n_factors: 因素的数量。默认值为100
lr_all: 所有参数的学习率
'''
param_grid = {'n_epochs': [14, 14], 'lr_all': [0.005, 0.005], 'n_factors': [10, 5]}
# 采用三折交叉验证,指定的评估指标为rmse和mae
gs = GridSearchCV(SVD, param_grid, measures=['rmse', 'mae'], cv=3)
# 用最佳参数模型基于用户评价数据训练
gs.fit(evaluationData)
# 打印最小的均方根误差
print("Best RMSE score attained: ", gs.best_score['rmse'])
# 给出最佳RMSE分数的参数组合
print("Best parameters: ", gs.best_params['rmse'])
# 构建一个评估器
evaluator = Evaluator(evaluationData, rankings)
# 将参数设置为最佳参数用于SVD建模,并把模型添加进评估器的算法池中
params = gs.best_params['rmse']
SVDtuned = SVD(n_epochs=params['n_epochs'], lr_all=params['lr_all'], n_factors=params['n_factors'])
evaluator.AddAlgorithm(SVDtuned, "SVD - Tuned")
# 将默认参数的SVD模型放入评估器的算法池
SVDUntuned = SVD()
evaluator.AddAlgorithm(SVDUntuned, "SVD - Untuned")
# 打印所有参数指标,并推荐电影
evaluator.Evaluate(True)
evaluator.SampleTopNRecs(ml)