基于baseline和stochastic gradient descent的个性化推荐系统

文章主要介绍的是koren 08年发的论文[1],  2.1 部分内容(其余部分会陆续补充上来)。

 koren论文中用到netflix 数据集, 过于大, 在普通的pc机上运行时间很长很长。考虑到写文章目地主要是已介绍总结方法为主,所以采用Movielens 数据集。

要用到的变量介绍:


Baseline estimates

     

object function:

梯度变化(利用stochastic gradient descent算法使上述的目标函数值,在设定的迭代次数内,降到最小)

系统评判标准:


参数设置:


迭代次数maxStep = 100, 学习速率(梯度变化速率)取0.99  还有的其他参数设置参考引用论文[2]




具体的代码实现

''''' 
Created on Dec 11, 2012 
 
@Author: Dennis Wu 
@E-mail: hansel.zh@gmail.com 
@Homepage: http://blog.csdn.net/wuzh670 
 
Data set download from : http://www.grouplens.org/system/files/ml-100k.zip 
 
'''  
from operator import itemgetter, attrgetter  
from math import sqrt  
import random  
  
def load_data():  
      
    train = {}  
    test = {}  
      
    filename_train = 'data/ua.base'  
    filename_test = 'data/ua.test'  
      
    for line in open(filename_train):  
        (userId, itemId, rating, timestamp) = line.strip().split('\t')  
        train.setdefault(userId,{})  
        train[userId][itemId] = float(rating)  
    
    for line in open(filename_test):  
        (userId, itemId, rating, timestamp) = line.strip().split('\t')  
        test.setdefault(userId,{})  
        test[userId][itemId] = float(rating)  
      
    return train, test  
  
def calMean(train):  
    sta = 0  
    num = 0  
    for u in train.keys():  
        for i in train[u].keys():  
            sta += train[u][i]  
            num += 1  
    mean = sta*1.0/num  
    return mean  
  
def initialBias(train, userNum, movieNum):  
  
    mean = calMean(train)  
    bu = {}  
    bi = {}  
    biNum = {}  
    buNum = {}  
      
    u = 1  
    while u < (userNum+1):  
        su = str(u)  
        for i in train[su].keys():  
            bi.setdefault(i,0)  
            biNum.setdefault(i,0)  
            bi[i] += (train[su][i] - mean)  
            biNum[i] += 1  
        u += 1  
          
    i = 1  
    while i < (movieNum+1):  
        si = str(i)  
        biNum.setdefault(si,0)  
        if biNum[si] >= 1:  
            bi[si] = bi[si]*1.0/(biNum[si]+25)  
        else:  
            bi[si] = 0.0  
        i += 1  
  
    u = 1  
    while u < (userNum+1):  
        su = str(u)  
        for i in train[su].keys():  
            bu.setdefault(su,0)  
            buNum.setdefault(su,0)  
            bu[su] += (train[su][i] - mean - bi[i])  
            buNum[su] += 1  
        u += 1  
          
    u = 1  
    while u < (userNum+1):  
        su = str(u)  
        buNum.setdefault(su,0)  
        if buNum[su] >= 1:  
            bu[su] = bu[su]*1.0/(buNum[su]+10)  
        else:  
            bu[su] = 0.0  
        u += 1  
  
    return bu,bi,mean  
  
def sgd(train, test, userNum, movieNum):  
  
    bu, bi, mean = initialBias(train, userNum, movieNum)  
  
    alpha1 = 0.002  
    beta1 = 0.1  
    slowRate = 0.99  
    step = 0  
    preRmse = 1000000000.0  
    nowRmse = 0.0  
    while step < 100:  
        rmse = 0.0  
        n = 0  
        for u in train.keys():  
            for i in train[u].keys():  
                pui = 1.0 * (mean + bu[u] + bi[i])  
                eui = train[u][i] - pui  
                rmse += pow(eui,2)  
                n += 1  
                bu[u] += alpha1 * (eui - beta1 * bu[u])  
                bi[i] += alpha1 * (eui - beta1 * bi[i])  
  
        nowRmse = sqrt(rmse*1.0/n)  
        print 'step: %d      Rmse: %s' % ((step+1), nowRmse)  
        if (nowRmse < preRmse):  
            preRmse = nowRmse  
        alpha1 *= slowRate  
        step += 1  
    return bu, bi, mean  
  
def calRmse(test, bu, bi, mean):  
      
    rmse = 0.0  
    n = 0  
    for u in test.keys():  
        for i in test[u].keys():  
            pui = 1.0 * (mean + bu[u] + bi[i])  
            eui = pui - test[u][i]  
            rmse += pow(eui,2)  
            n += 1  
    rmse = sqrt(rmse*1.0 / n)  
    return rmse;  
     
if __name__ == "__main__":  
  
  
    # load data  
    train, test = load_data()  
      
    # baseline + stochastic gradient descent  
    bu, bi, mean = sgd(train, test, 943, 1682)  
      
    # compute the rmse of test set  
    print 'the Rmse of test test is: %s' % calRmse(test, bu, bi, mean)  

实验结果


REFERENCES

1.Y. Koren. Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model. Proc. 14th ACM SIGKDD Int. Conf. On Knowledge Discovery and Data Mining  (KDD08), pp. 426434, 2008.

2. Y.Koren.  The BellKor Solution to the Netflix Grand Prize  2009


转载请注明:转自 zh's note    http://blog.csdn.net/wuzh670/


  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
知识图谱推荐系统baseline代码是指在搭建推荐系统时的初始代码框架。该框架用于构建基础的推荐模型,包括数据预处理、特征工程、模型训练和推荐结果生成等步骤。 在数据预处理阶段,可以使用代码将原始数据清洗、转换成模型可用的格式,并进行数据分割和样本筛选等操作。例如,可以使用Python的pandas库进行数据读取、清洗和转换操作。 特征工程是提取用户和物品的特征,用于训练推荐模型。在该阶段,可以使用代码提取用户的基本信息、历史行为数据,以及物品的属性信息等特征。可以使用Python的特征提取库,如scikit-learn,进行特征提取和转换操作。 模型训练是使用机器学习算法构建推荐模型的过程。在该阶段,可以使用代码选择适当的机器学习算法,并进行模型训练和参数调优。例如,可以使用Python的机器学习库,如scikit-learn或PyTorch,进行模型的训练和优化。 推荐结果生成是根据训练好的模型,为用户生成个性化的推荐结果。该阶段使用训练好的模型对新用户和物品进行打分,然后按照一定的规则,生成推荐列表。例如,可以使用代码计算用户和物品之间的相似度,并根据相似度进行推荐。 综上所述,知识图谱推荐系统baseline代码是一套基础的推荐系统框架,包括数据预处理、特征工程、模型训练和推荐结果生成等步骤。通过这套代码,可以快速搭建一个基本的知识图谱推荐系统,并在此基础上进行进一步的优化和改进。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值