推荐系统-Item Based CF实例

最新推荐文章于 2023-05-24 10:16:05 发布

Keep-Up

最新推荐文章于 2023-05-24 10:16:05 发布

阅读量1.2k

点赞数

分类专栏：大数据文章标签：大数据推荐算法 CF item based CF

本文链接：https://blog.csdn.net/qq_19470683/article/details/86500810

版权

大数据专栏收录该内容

9 篇文章 0 订阅

订阅专栏

前边我们已经简单介绍了基于内容的推荐系统CB和基于协同过滤的推荐系统CF，今天我们就来看一个基于协同过滤中的基于物品的 Item Based CF 的一个实际实例来帮助大家更好的来了解和掌握以前的知识。

下面我们来看看我们的元数据，数据很简单，每一行由userId（用户ID）、itemId（物品ID）、score（用户打分）组成，之间用”，“分隔。

我们计算的时候用下边这个相似度计算公式，这个公式其实本质上和cos相似度计算公式一样。
$W_{i,j}=\frac {(\sum_{u\in U(i,j)}r_{ui}*r_{uj})*(|U(i,j)|-1)}{\sqrt[]{\sum_{u\in U(i,j)}r_{ui}^2*\sum_{u\in U(i,j)}r_{uj}^2}*(|U(i,j)|-1+\lambda)}$
其中：

$W_{i,j}$ 表示标号为i和j的两个item的相似度

$U (i, j)$ 表示同时对i和j两个有评分的用户的集合

$r_{ui}$ 表示用户u对item i的评分

$\lambda$ 为平滑参数

实际上我们在用的时候可以把分子分母相乘的后半部分当做一个常数舍去，对结果没有没有影响。那我们在计算的时候就可以只看前半部分了，通过分析我们就会发现，对于每个用户来说分母都是相同的，是所有用户对i的打分的平方和然后乘以所有用户对j的打分的平方和，而分子就是自己对i和j的乘积，我们分别把分母拆开，就可以得出其实就是自己对i的打分除以所有用户对i的打分的平方和（相当于归一化）然后乘以自己对i的打分除以所有用户对i的打分的平方和。由此我们代码实现的时候就很简单了。

我们举一个简单的例子来说明这个公式怎么应用

	item1	item2
A	2	5
B	1	3
C	4	2

我们要计算item1和item2的相似度，现在我们已经知道了所有同时对两个物品打分的用户A、B、C那么两个物品的相似度计算过程，首先把打分进行归一化，先求得所有用户对item1的打分的平方和 $2^2+1^2+4^2=20$ 然后求得所有用户对item2的打分的平方和 $5^2+3^2+2^2=38$ 然后对所有打分进行归一化后再分别相乘求和，最后的相似度为
$相似度=\frac{2}{20}*\frac{5}{38}+\frac{1}{20}*\frac{3}{38}+\frac{4}{20}*\frac{2}{38}$
那么我们现在就有了一个思路，首先把所有打分进行归一化计算，然后找出所有对i和j打分的集合，然后计算出i和j的相似度。

下面就是按照这个思路的代码实现，代码为python写的MapReduce任务。

归一化并两两取对过程

map1.py

#! /usr/bin/env python 
# -*- coding: utf-8 -*-

import sys
import math

item_score_dic = {}
user_item_score_list = []
for line in sys.stdin:
    ss = line.strip().split(',')
    if len(ss) != 3:
        continue
    user = ss[0].strip()
    item = ss[1].strip()
    score = float(ss[2].strip())
    user_item_score_list.append((user,item,score))
    score = pow(score,2)
    if item_score_dic.has_key(item):
        item_score_dic[item] += score
    else:
        item_score_dic[item] = score

for uis in user_item_score_list:
    user, item, score = uis
    if item_score_dic.has_key(item):
        score_sqr = math.sqrt(item_score_dic[item])
        print ('\t'.join([user,item,score/score_sqr]))

reduce1.py

#! /usr/bin/env python
# -*- coding: utf-8 -*-
import sys

current_user = None
item_score_list = []

for line in sys.stdin:
    ss = line.strip().split('\t')
    if len(ss) != 3:
        continue
    user = ss[0].strip()
    item = ss[1].strip()
    score = float(ss[2].strip())
    if not current_user:
        current_user = user
    if current_user != user:
        for i in range(0, len(item_score_list) - 1):
            for j in range(i+1, len(item_score_list)):
                item_a, score_a = item_score_list[i]
                item_b, score_b = item_score_list[j]
                print('\t'.join([item_a, item_b, score_a * score_b]))
                print('\t'.join([item_b, item_a, score_a * score_b]))
        item_score_list = []
        current_user = user

    item_score_list.append((item, score))

for i in range(0, len(item_score_list) - 1):
    for j in range(i + 1, len(item_score_list)):
        item_a, score_a = item_score_list[i]
        item_b, score_b = item_score_list[j]
        print('\t'.join([item_a, item_b, score_a * score_b]))
        print('\t'.join([item_b, item_a, score_a * score_b]))

item1和item2相似对求和阶段

map2.py

#! /usr/bin/env python
# -*- coding: utf-8 -*-
import sys

for line in sys.stdin:
    ss = line.strip().split('\t')
    if len(ss) != 3:
        continue
    item_a = ss[0].strip()
    item_b = ss[1].strip()
    score = ss[2].strip()
    print('%s#%s\t%s' % item_a, item_b, score)

reduce2.py

#! /usr/bin/env python
# -*- coding: utf-8 -*-
import sys

current_items = None
sum = 0.0

for line in sys.stdin:
    ss = line.strip().split('\t')
    if len(ss) != 2:
        continue
    item_item = ss[0].strip()
    score = float(ss[1].strip())
    if not current_items:
        current_items = item_item
    if current_items != item_item:
        item_a, item_b = current_items.split('#')
        print('\t'.join(item_a, item_b, sum))
        sum = 0.0
        current_items = item_item
        
    sum += score

item_a, item_b = current_items.split('#')
print('\t'.join(item_a, item_b, sum))