SVD模型预测评分，及GridSearchCV调优

最新推荐文章于 2024-05-08 17:08:45 发布

lihonst

最新推荐文章于 2024-05-08 17:08:45 发布

阅读量2.2k

点赞数 1

分类专栏：模型整理文章标签：机器学习逻辑回归人工智能回归

本文链接：https://blog.csdn.net/lihonst/article/details/121303696

版权

模型整理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文重点介绍评分和推荐等相关的算法与实现，使用数据是用户对笑话的打分情况，数据可从如下链接：评分预测-模型训练预测数据-机器学习文档类资源-CSDN下载

本文涉及知识点如下：

使用Python的推荐库surprise库做相应的模型预测。
使用SVD（奇异值分析算法）做相关评分预测
使用网格搜索（GridSearchCV）进行进行模型调优
模型的评估方法使用RMSE（root_mean_squared_error），常用与回归模型的评估。

1. 网格搜索（GridSearchCV）

GridSearchCV是一个模型调参利器，其可拆分两部分，即网格搜索和交叉验证。网格搜索，即在指定的参数范围内，根据特定步长筛选可使模型效果最优的参数。交叉验证，即为降低偶然性，把数据集划分K份，一份做测试集，K-1份做训练集，训练K次最终取均值。

优点：自动调参，把参数列表输入则返回最优的参数组合，针对给定的参数列表返回的是全局最优组合。
缺点：该方法适合于小数据集，对于较大数据集和超参很难出结果。一般解决方法是选择较大的步长，确定全局最优的可能位置，然后在逐步缩小步长。

surprise.model_selection.search.GridSearchCV(algo_class, param_grid, measures=[u'rmse', u'mae'], cv=None, refit=False, return_train_measures=False, n_jobs=1, pre_dispatch=u'2*n_jobs', joblib_verbose=0)
algo_class: 分类器，如决策树，SVD等
param_grid: 参数列表，分类器遍历的参数
measures: 模型评估方法，默认['rmse', 'mae']

2. RMSE评估模型效果

RMSE, 均方根误差也即标准差，是均方误差的算术平方根。引入标准差的目的是解决均方误差的结果和实际数据的量纲不同问题，则RMSE的公式如下：

3. 相关实现

导入相关包：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from surprise import Reader, Dataset, SVD
from surprise.model_selection import GridSearchCV
from surprise.model_selection import train_test_split
from surprise import accuracy

读取训练数据和测试数据

path = ''
train=pd.read_csv(path + "/train.csv")
jokes=pd.read_csv(path + "/jokes.csv")
test=pd.read_csv(path + "/test.csv")

输出数据
print(train.head())
print(jokes.head())
print(test.head())

输出变量的相关性

train.corr()

读取训练数据，划分为训练集和验证集

reader = Reader(rating_scale=(-10, 10))
train_data = Dataset.load_from_df(train[['user_id', 'joke_id', 'Rating']], reader)
train1, test1 = train_test_split(train_data, test_size=0.3)

通过网格搜索算法寻找最优参数

params = {'n_epochs': [10, 25, 50], 'lr_all': [0.001, 0.005, 0.01], 'reg_all': [0.1, 0.4, 0.08]}
gs_svd = GridSearchCV(SVD, params, measures = ['rmse'], cv = 2)
gs_svd.fit(train_data)

print(gs_svd.best_score['rmse']),print(gs_svd.best_params['rmse'])

最优参数：4.08555208717408 {'n_epochs': 25, 'lr_all': 0.001, 'reg_all': 0.1}

训练模型，预测测试集并输出测试集的评估效果。

svd = SVD(n_epochs=25, lr_all=0.001, reg_all=0.1, random_state=123)
svd.fit(train_data)

pred_test = svd.test(test_data)
accuracy.rmse(pred_test)

测试集的RMSE结果：4.07

下面可以使用该模型预测数据，并保存预测结果到目标目录。

data_pred =[(test.iloc[i,0],test.iloc[i,1],test.iloc[i,2],svd.predict(test.iloc[i,1],test.iloc[i,2]).est) for i in range(test.shape[0]) ]

df = pd.DataFrame(data_pred,columns=['id','user_id','joke_id','Rating'])
df.to_csv("data_pred.csv",index=False,header=df.columns)

lihonst

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
SVD模型预测评分，及GridSearchCV调优

本文重点介绍评分和推荐等相关的算法与实现，使用数据是用户对笑话的打分情况，数据可从如下链接下载：本文涉及知识点如下：使用Python的推荐库surprise库做相应的模型预测。使用SVD（奇异值分析算法）做相关评分预测使用网格搜索（GridSearchCV）进行进行模型调优模型的评估方法使用RMSE（root_mean_squared_error），常用与回归模型的评估。1. 网格搜索（GridSearchCV）GridSearchCV是一个模型调参利器，其可拆分两...
复制链接

扫一扫