《推荐系统实战》-基于用户的系统过滤推荐

最新推荐文章于 2022-03-23 16:42:37 发布

金小朵

最新推荐文章于 2022-03-23 16:42:37 发布

阅读量1.8k

点赞数 1

分类专栏：推荐系统文章标签： user-based

本文链接：https://blog.csdn.net/sunflower606/article/details/45477413

版权

本文介绍了《推荐系统实战》一书中基于用户的推荐系统过滤方法，并对recommend()函数进行了优化，增加了权重调整。在coverage计算时，修正了测试集项目统计的错误。实验结果显示，数据集增大时，准确率和召回率提升，且当K=80时达到峰值。此外，通过惩罚热门物品影响，recall、precision和coverage得到改善，表明userSimiliarityIIF算法优于userSimiliarityBest。

摘要由CSDN通过智能技术生成

参考书籍：项亮《推荐系统实战》
参考链接这里写链接内容

# -- coding: utf-8 --

import random
import math
class UserBasedCF:
    def __init__(self,datafile = None):
        self.datafile = datafile
        self.readData()
        self.splitData(3,47)
    def readData(self,datafile = None):
        """
        read the data from the data file which is a data set
        把文件中的内容读到data中
        """
        self.datafile = datafile or self.datafile
        self.data = []
        for line in open(self.datafile):
            userid,itemid,record,_ = line.split()
            self.data.append((userid,itemid,int(record)))

    def splitData(self,k,seed,data=None,M = 8):
        """
        split the data set
        testdata is a test data set
        traindata is a train set
        test data set / train data set is 1:M-1
        """
        self.testdata = {}
        self.traindata = {}
        data = data or self.data
        random.seed(seed)
        for user,item, record in self.data:
            if random.randint(0,M) == k:
                self.testdata.setdefault(user,{})
                self.testdata[user][item] = record
            else:
                self.traindata.setdefault(user,{})
                self.traindata[user][item] = record
    def userSimilarity(self,train = None):
        train = train or self.traindata
        self.userSim = dict()
        for u in train.keys():
            for v in train.keys():
                if u == v:
                    continue
                self.userSim.setdefault(u,{})
                self.userSim[u][v] = len(set(train[u].keys()) & set(train[v].keys()))
                self.userSim[u][v] /=math.sqrt(len(train[u]) * len(train[v]) *1.0)

    def userSimilarityBest(self,train = None):