相似度与相异度

半爿天穹

已于 2023-11-19 16:53:31 修改

阅读量250

点赞数

分类专栏：大数据算法基础文章标签：算法

于 2023-11-19 15:28:11 首次发布

本文链接：https://blog.csdn.net/sfrl001/article/details/134490791

版权

大数据算法基础专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第1关：用相关系数计算直线之间的相似度

任务描述

本关任务：计算各种相关系数方法下的直线(数据)相似度

相关知识

为了完成本关任务，你需要掌握：

欧几里得相关系数
余弦相关系数
泊松相关系数(也称皮尔逊相关系数)

欧几里得相关系数

利用欧几里得相关系数计算数据集的的相似度，一般是基于每对对象间的距离计算的。其原理公式为:
def euclidean(p, q):
    # 如果两数据集数目不同，计算两者之间都对应有的数
    same = 0
    for j in p:
        if j in q:
            same += 1
 
    # 计算欧几里德距离,并将其标准化
    e = sum([(p[j] - q[j]) ** 2 for j in range(same)]) 
    return 1 / (1 + e ** 0.5) 
euclidean([1, 2, 3, 4, 5],[2, 4, 6, 8, 10]) 
输出：0.3090169943749474

余弦相关系数

余弦相似度，取值在-1和1之间。如果两个向量方向相反，那么等于-1；如果两个向量方向相同，那么等于1。所以，两个向量之间的夹角越小，其夹角余弦越大（越相似）。因此余弦相似度可以用来度量两个变量之间的相似程度。

因为我们需要对比的是直线之间的相似度，根据数据集之间的数据距离来计算相似度明显不太可取。所以，我们需要利用余弦相关系数来计算直线之间的相似度。就比如直线y=5x+3与直线y=5x+8的相似度。即可以看出两个数据集[5,3]与[5,8].计算它们之间的相似度如下：余弦相关系数原理公式为:

代码如下：
def cosine_similarity(x, y):
    xx = 0.0
    yy = 0.0
    xy = 0.0
    for i in range(len(x)):
        xx += x[i] * x[i]
        yy += y[i] * y[i]
        xy += x[i] * y[i] 
    xx_sqrt = xx ** 0.5
    print(xx)
    print(yy)
    print(xy)
    yy_sqrt = yy ** 0.5
    cos = xy/(xx_sqrt*yy_sqrt)
    return cos
cosine_similarity([5，3],[5，8])
输出：0.890761869708233

泊松相关系数

上述余弦相关系数所使用的数据(两条直线)是二维数据，当我们将数据集扩增到多维数据时，即数据集(x1,x2,...,xn)与数据集(y1,y2,...,yn)，对这些数据进行标准化，获得的向量之间的夹角的余弦，即皮尔逊相关系数。其原理如图所示:

接下来我们选取deaths.csv(已上传数据集)中的一部分数据，即选取用户用户(UID)84001001与用户(UID)84001003从2004/1/20到2004/20/20这段日期的数据，再比较相似度。获取数据代码如下:
import pandas as pd
df=pd.csv('./deaths.csv')
print(df.head)
print(df.loc[[0,1,16],'2004/1/20':'4/20/20'].values.tolist()) # 选取了第0，1，16行的用户从2004/1/20到2004/20/20这段日期的数据
print(df.head)的截图如下:

获得的三行数据如下: [[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3], [0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]
#泊松相关系数
import scipy
import numpy
from scipy.stats import pearsonr
x =numpy.array([0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,2,2,2,1])
y =numpy.array([1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,3])
r_row, p_value = pearsonr(x, y)
print ("用户(UID)84001001与用户(UID)84001003从2004/1/20到4/20/20这段日期的相似度为",r_row)
# print (p_value)
输出如下: 用户(UID)84001001与用户(UID)84001003从2004/1/20到4/20/20这段日期的相似度为 0.5508226327552435

编程要求

请从数据集中获得数据，计算用户(UID)84001033与用户(UID)84001003从2004/1/20到4/20/20这段日期的相似度(其中用户84001033序号即为16)

测试说明

平台会对你编写的代码进行测试：预期输出：用户(UID)84001033与用户(UID)84001003从2004/1/20到4/20/20这段日期的相似度为 0.44908871313907184。

代码：

# 欧几里得相关系数
def euclidean(p, q):
    # 如果两数据集数目不同，计算两者之间都对应有的数
    same = 0
    for i in p:
        if i in q:
            same += 1

    # 计算欧几里德距离,并将其标准化
    ########## Begin ##########
    e = sum([(p[i] - q[i]) ** 2 for i in range(same)])
    ########## End ##########    
    return 1 / (1 + e ** 0.5)


print("欧几里得计算出的相似度为",euclidean([1, 2, 3, 4, 5], [2, 4, 6, 8, 10]))

# 余弦相似度
def cosine_similarity(x, y):
    xx = 0.0
    yy = 0.0
    xy = 0.0
    for i in range(len(x)):
        xx += x[i] * x[i]
        yy += y[i] * y[i]
        xy += x[i] * y[i]
    xx_sqrt = xx ** 0.5
#     print(xx)
#     print(yy)
#     print(xy)
    yy_sqrt = yy ** 0.5
    cos = xy/(xx_sqrt*yy_sqrt)
    return cos


print('余弦相关系数计算出的相似度为',cosine_similarity([5,3],[5,8]))


#泊松相关系数
import scipy
import numpy
from scipy.stats import pearsonr

########## Begin ##########
x =numpy.array([0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1])
########## End ##########
y =numpy.array([1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,3])

r_row, p_value = pearsonr(x, y)
print ("用户(UID)84001033与用户(UID)84001003从2004/1/20到4/20/20这段日期的相似度为",r_row)
# print (p_value)

第2关：基于相似度度量的商品推荐

任务描述

本关任务：通过协同过滤算法完成推荐系统应用实例。

相关知识

为了完成本关任务，你需要掌握：

了解协同过滤算法原理，
通过协同过滤算法实现商品推荐。

协同过滤算法基本原理

俗话说“物以类聚、人以群分”，如果你喜欢看《海贼王》、《火影忍者》等动漫，另外有个人也都喜欢这些动漫，而且他还喜欢《死神》，则很有可能你也喜欢《死神》这部动漫。

基本思想：购买了商品A的客户可能也会购买与商品A相似的商品B；与用户A相似的用户B可能也会购买用户A买过的上。

协同过滤算法的实现步骤

（一）：找到与目标用户兴趣相似的用户集合

通常用 Jaccard 公式或者余弦相似度计算两个用户之间的相似度。设 N(u) 为用户 u 喜欢的物品集合，N(v)为用户 v 喜欢的物品集合，那么 u 和 v 的相似度是多少呢：

通过第一关的知识，我们了解到Jaccard 公式和余弦相似度计算公式为：

Jaccard 公式：

余弦相似度：

假设目前共有4个用户： A、B、C、D；共有5个物品：a、b、c、d、e。用户与物品的关系（用户喜欢物品），如下图所示：
# 目标用户(A用户喜欢a、b、d商品)
target_user = {'A':['a','b','d']}
print(f'目标用户：{target_user}')
# 相似用户用户()
alike_user = {'B': ['a','c'],'C': ['b','e'],'D':['c','d','e']}
print(f'相似用户：{alike_user}')
输出：目标用户：{'A': ['a', 'b', 'd']} 相似用户：{'B': ['a', 'c'], 'C': ['b', 'e'], 'D': ['c', 'd', 'e']}
# 总共商品类型
key_value = []
value1 = target_user.values()
for item in value1:
   for good in item:
       # 如果不再就添加到键值（错别字2333）
       if good not in key_value:
           key_value.append(good)
value2 = alike_user.values()
for item in value2:
   for good in item:
       if good not in key_value:
           key_value.append(good)
print(f'总共商品类型：{key_value}')
输出：总共商品类型：['a', 'b', 'd', 'c', 'e']

为计算方便，通常首先需要建立“物品—用户”的倒排表，如下图所示：
new_table = []
for good in key_value:
    new_dict = {}
    user_list = []
    # 目标用户
    key_value_list = target_user.items()
    # print(key_value_list)
    for key_value in key_value_list:
        key = key_value[0]
        value = key_value[1]
        if (good in value) & (key not in user_list):
            user_list.append(key)
    # new_dict[good] = user_list
    # new_table.append(new_dict)
    # 相似用户
    key_value_list = alike_user.items()
    # print(key_value_list)
    for key_value in key_value_list:
        key = key_value[0]
        value = key_value[1]
        if (good in value) & (key not in user_list):
            user_list.append(key)
    new_dict[good] = user_list
    new_table.append(new_dict)
print(new_table)
输出：[{'a': ['A', 'B']}, {'b': ['A', 'C']}, {'d': ['A', 'D']}, {'c': ['B', 'D']}, {'e': ['C', 'D']}]

如果喜欢物品 a 的用户有 A 和 B，那么在矩阵中他们两两加1，如下图所示：

计算用户两两之间的相似度，以余弦相似度为例，对上图进行进一步计算：
# 计算余弦相似度
import pandas as pd
import numpy as np
df = pd.DataFrame(data=np.zeros((4,4)), columns=['A','B','C','D'],index=['A','B','C','D'])
print(df)
# 统计交集
for item in new_table:
    print(list(item.values())[0])
    label = list(item.values())[0]
    x = label[0]
    y = label[1]
    df.loc[x,y] = df.loc[x,y] + 1
    df.loc[y,x] = df.loc[y,x] + 1
print(df)
# 计算两两之间的相似度
count_list = {}
for i in ['A','B','C','D']:
    count = df.loc[i,:].sum()
    count_list[i] = count
print(count_list)
输出：A B C D A 0.0 0.0 0.0 0.0 B 0.0 0.0 0.0 0.0 C 0.0 0.0 0.0 0.0 D 0.0 0.0 0.0 0.0 ['A', 'B'] ['A', 'C'] ['A', 'D'] ['B', 'D'] ['C', 'D'] A B C D A 0.0 1.0 1.0 1.0 B 1.0 0.0 0.0 1.0 C 1.0 0.0 0.0 1.0 D 1.0 1.0 1.0 0.0 {'A': 3.0, 'B': 2.0, 'C': 2.0, 'D': 3.0}
for i in ['A','B','C','D']:
    for j in ['A', 'B', 'C', 'D']:
        df.loc[i,j] = df.loc[i,j] / np.sqrt(count_list[i] * count_list[j])
print(df)
（二）：根据用户集合给目标用户推荐物品首先需要从矩阵中找出与目标用户 u 最相似的 K 个用户，用集合 S(u,K) 表示，将 S 中用户喜欢的物品全部提取出来，并去除 u 已经喜欢的物品。对于每个候选物品 i ，用户 u 对它感兴趣的程度用如下公式计算：

其中 rvi 表示用户 v 对 i 的喜欢程度，在本例中都是为1，在一些需要用户给予评分的推荐系统中，则要代入用户评分。

举个例子，假设我们要给 A 推荐物品，选取 K = 3 个相似用户，相似用户则是： B、C、D，那么他们喜欢过并且 A 没有喜欢过的物品有：c、e，那么分别计算p(A,c) 和 p(A,e)：

看样子用户 A 对 c 和 e 的喜欢程度可能是一样的，在真实的推荐系统中，只要按得分排序，取前几个物品就可以了。
# 计算p(A,c)和p(A,e)
p_Ac = df.loc['A','B'] + df.loc['A','D']
print(f'p(A,c):{p_Ac}')
p_Ae = df.loc['A','C'] + df.loc['A','D']
print(f'p(A,e):{p_Ae}')
if p_Ac > p_Ae:
    print("用户A对c商品更感兴趣，将e商品推荐给A")
elif p_Ac < p_Ae:
    print("用户A对e商品更感兴趣，将e商品推荐给A")
else:
    print("用户A对c商品和e商品同样感兴趣！")
输出： p(A,c):0.7415816237971964 p(A,e):0.7415816237971964 用户A对c商品和e商品同样感兴趣！

编程要求

根据本节关卡知识，完成本关实训。

测试说明

无

代码：

# （一）：找到与目标用户兴趣相似的用户集合
# ########## Begin ##########
# 目标用户(A用户喜欢a、b、d商品)
target_user = {'A':['a','b','d']}
print(f'目标用户：{target_user}')
# 相似用户用户()
alike_user = {'B':['a','c'],'C':['b','e'],'D':['c','d','e']}
print(f'相似用户：{alike_user}')
# ########## End ##########
# 倒排表

"""
a A B C
"""
# 总共商品类型
key_value = []
value1 = target_user.values()
for item in value1:
    for good in item:
        # 如果不在就添加到键值
        if good not in key_value:
            key_value.append(good)
value2 = alike_user.values()
########## Begin ##########
for item in value2:
   for good in item:
       if good not in key_value:
           key_value.append(good)
print(f'总共商品类型：{key_value}')
########## End ##########
new_table = []
for good in key_value:
    new_dict = {}
    user_list = []
    # 目标用户
    key_value_list = target_user.items()
    # print(key_value_list)
    for key_value in key_value_list:
        key = key_value[0]
        value = key_value[1]
        if (good in value) & (key not in user_list):
            user_list.append(key)
    # new_dict[good] = user_list
    # new_table.append(new_dict)
    # 相似用户
    key_value_list = alike_user.items()
    # print(key_value_list)
    for key_value in key_value_list:
        key = key_value[0]
        value = key_value[1]
        if (good in value) & (key not in user_list):
            user_list.append(key)
    new_dict[good] = user_list
    new_table.append(new_dict)
print(new_table)
########## Begin ##########
# 计算余弦相似度
import pandas as pd
import numpy as np
df = pd.DataFrame(data=np.zeros((4,4)), columns=['A','B','C','D'],index=['A','B','C','D'])
print(df)
# 统计交集
for item in new_table:
    print(list(item.values())[0])
    label = list(item.values())[0]
    x = label[0]
    y = label[1]
    df.loc[x,y] = df.loc[x,y] + 1
    df.loc[y,x] = df.loc[y,x] + 1
print(df)
########## End ##########

# 计算两两之间的相似度
count_list = {}
for i in ['A','B','C','D']:
    count = df.loc[i,:].sum()
    count_list[i] = count
print(count_list)
# 计算余弦相似度
########## Begin ##########
for i in ['A','B','C','D']:
    for j in ['A', 'B', 'C', 'D']:
        df.loc[i,j] = df.loc[i,j] / np.sqrt(count_list[i] * count_list[j])
########## End ##########
print(df)
########## Begin ##########
# 计算p(A,c)和p(A,e)
p_Ac = df.loc['A','B'] + df.loc['A','D']
print(f'p(A,c):{p_Ac}')
p_Ae = df.loc['A','C'] + df.loc['A','D']
print(f'p(A,e):{p_Ae}')
########## End ##########
if p_Ac > p_Ae:
    print("用户A对c商品更感兴趣，将e商品推荐给A")
elif p_Ac < p_Ae:
    print("用户A对e商品更感兴趣，将e商品推荐给A")
else:
    print("用户A对c商品和e商品同样感兴趣！")

开始你的任务吧，祝你成功！