item-based CF

thinker_1120

已于 2023-05-13 16:22:24 修改

阅读量1.5k

点赞数 2

分类专栏：推荐系统算法原理文章标签：算法

于 2019-04-18 17:49:44 首次发布

本文链接：https://blog.csdn.net/cymy001/article/details/89384332

版权

算法原理同时被 2 个专栏收录

31 篇文章 2 订阅

订阅专栏

推荐系统

13 篇文章 1 订阅

订阅专栏

item-based CF

给用户推荐那些和他们之前喜欢的物品相似的物品。item-based CF并不是利用物品的内容属性计算物品之间的相似度，主要是通过分析用户的行为记录计算物品间的相似度。

算法步骤

（1）计算物品之间的相似度
（2）根据物品的相似度和用户的历史行为，给用户生成推荐列表
$w_{ij}=\frac{|N(i)\cap N(j)|}{|N(i)|}$
其中 $∣ N (i) ∣$ 是喜欢物品 $i$ 的用户数， $|N(i)\cap N(j)|$ 是同时喜欢物品 $i$ 和物品 $j$ 的用户数。喜欢物品 $i$ 的用户里，有多少比例的用户也喜欢物品 $j$ 。但如果物品 $j$ 很热门，即很多人都喜欢，则 $w_{ij}$ 就会很大，接近1；即任何物品都会和热门的物品有很大的相似度，所以添加惩罚物品 $j$ 的权重
$w_{ij}=\frac{|N(i)\cap N(j)|}{\sqrt{|N(i)||N(j)|}}$

用户-物品倒排表

对每个用户建立一个包含他”喜欢的物品的列表“，然后对每个用户，将他”喜欢的物品的列表“中的物品两两在共现矩阵 $C$ 中加1。
对每个用户”喜欢的物品的列表“建立”物品两两对应出现矩阵“，最终将每个用户的”物品两两对应出现矩阵“相加得到共现矩阵 $C$ ， $C [i] [j]$ 表示同时喜欢物品 $i$ 和物品 $j$ 的用户数。
user-item矩阵.jpg
item两两对应矩阵合成共现矩阵.jpg

import math

def ItemSimilarity(train):
    """
    :param train: user-item matrix
    :return: W: similarity matrix
    """
    #calculate co-rated users between items
    C=dict()
    N=dict()
    for u, items in train.items():
        for i in items:
            #################
            if i not in N:
                N[i] = 0
            #################
            N[i] += 1

            for j in items:
                if i == j:
                    continue
                #################
                if i not in C:
                    C[i] = dict()
                if j not in C[i]:
                    C[i][j]=0
                #################
                C[i][j] += 1

    #calculate final similarity matrix W
    W=dict()
    for i, related_items in C.items():
        for j, cij in related_items.items():
            #################
            if i not in W:
                W[i] = dict()
            if j not in W[i]:
                W[i][j] = 0
            #################
            W[i][j] = cij/math.sqrt(N[i]*N[j])
    return W

#test:
train={'A':{'a','b','d'},
       'B':{'b','c','e'},
       'C':{'c','d'},
       'D':{'b','c','d'},
       'E':{'a','d'}}
print(ItemSimilarity(train))

#Output:
{'a': {'b': 0.4082482904638631, 'd': 0.7071067811865475}, 
 'b': {'a': 0.4082482904638631, 'd': 0.5773502691896258, 'c': 0.6666666666666666, 'e': 0.5773502691896258}, 
 'd': {'a': 0.7071067811865475, 'b': 0.5773502691896258, 'c': 0.5773502691896258}, 
 'c': {'b': 0.6666666666666666, 'e': 0.5773502691896258, 'd': 0.5773502691896258}, 
 'e': {'b': 0.5773502691896258, 'c': 0.5773502691896258}}

用户u对物品j的兴趣【用户u对物品i的兴趣；物品i和物品j的相似性】

$p_{uj}=\sum\limits_{i\in N(u)\cap S(j,K)}w_{ji}r_{ui}$
其中 $N (u)$ 是用户 $u$ 喜欢的物品集合， $S (j, K)$ 是和物品 $j$ 最相似的 $K$ 个物品的集合， $w_{ji}$ 是物品 $j$ 和物品 $i$ 的相似度， $r_{ui}$ 是用户 $u$ 对物品 $i$ 的兴趣。即，和”用户历史上感兴趣的物品“越相似的物品，在用户的推荐列表里越有可能排名靠前。

from  operator import itemgetter
def Recommendation(train, user_id, W, K):
    """
    :param train: user-item matrix
    :param user_id: user id
    :param W: similarity matrix
    :param K: number of similar items
    :return: recommendation list in order
    """
    #give final recommendation list
    rank=dict()
    ru=train[user_id]   #user_id喜欢的物品集
    for i in ru:   #user_id喜欢的物品i
        if i not in W:
            continue
        for j, wj in sorted(W[i].items(), key=itemgetter(1), reverse=True)[0:K]:   #与物品i相似度最大的K个物品
            if j in ru:   #如果与物品i 相似度在前K个位置的物品j 在user_id原本喜欢的物品集里
                continue
            #################
            if j not in rank:
                rank[j] = 0
            #################
            rank[j] += wj
    return rank

#test:
train={'A':{'a','b','d'},
       'B':{'b','c','e'},
       'C':{'c','d'},
       'D':{'b','c','d'},
       'E':{'a','d'}}
W=ItemSimilarity(train)
print(Recommendation(train, 'A', W, 1))
print(Recommendation(train, 'A', W, 3))

#Output:
{'c': 0.6666666666666666}
{'c': 1.2440169358562925, 'e': 0.5773502691896258}

#即遍历指定用户喜欢的每个物品的/前K个相似物品