（5-2）基于标签的推荐：标签相似度计算方法

最新推荐文章于 2024-02-22 09:09:31 发布

码农三叔

最新推荐文章于 2024-02-22 09:09:31 发布

阅读量1.8k

点赞数 24

分类专栏：推荐系统文章标签： python 数据挖掘机器学习人工智能神经网络深度学习迁移学习

本文链接：https://blog.csdn.net/asd343442/article/details/136211948

版权

推荐系统专栏收录该内容

65 篇文章 12 订阅

订阅专栏

5.2 标签相似度计算方法

标签相似度计算方法用于度量两个标签之间的相似程度。在推荐系统中，标签相似度计算常用于评估用户对某个标签的兴趣，或者用于寻找具有相似标签的项目。

5.2.1 基于标签频次的相似度计算

基于标签频次的相似度计算是一种简单而常用的方法，用于度量标签之间的相似性。该方法基于标签在项目或用户中出现的频率，认为经常一起出现的标签具有较高的相似性。常见的基于标签频次的相似度计算方法包括余弦相似度、Pearson相关系数或其他相似度计算方法。

（1）余弦相似度（Cosine Similarity）

余弦相似度是计算两个向量之间的夹角余弦值，用于度量它们的相似性。对于标签，可以将标签向量化，然后使用余弦相似度计算它们之间的相似度。较大的余弦相似度值表示标签之间更相似。例如下面是一个简单的例子，演示了计算基于标签频次的相似度的过程。

源码路径：daima/5/yu.py

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 标签频次矩阵
tag_frequency_matrix = np.array([
    [2, 3, 0, 1],
    [1, 2, 1, 0],
    [0, 2, 3, 2],
    [3, 1, 2, 1]
])

# 计算余弦相似度矩阵
similarity_matrix = cosine_similarity(tag_frequency_matrix)

# 打印相似度矩阵
print(similarity_matrix)

在上述代码中，我们假设存在4个项目，每个项目关联了4个标签。将标签频次以矩阵形式表示，并使用函数cosine_similarity()计算余弦相似度矩阵。最后，打印出相似度矩阵。执行后会输出：

[[1.         0.87287156 0.51856298 0.69006556]
 [0.87287156 1.         0.69310328 0.73786479]
 [0.51856298 0.69310328 1.         0.62622429]
 [0.69006556 0.73786479 0.62622429 1.        ]]

（2）Pearson相关系数（Pearson correlation coefficient）

Pearson相关系数是一种用于度量两个变量之间线性相关程度的统计量，它衡量了两个变量之间的线性关系强度和方向，取值范围从-1到1。要实现基于Pearson相关系数的标签相似度计算，可以按照以下步骤进行：

收集项目或用户的标签数据，并将其表示为标签频次矩阵。每行代表一个项目或用户，每列代表一个标签，矩阵中的值表示标签在项目或用户中的频次或权重。
计算标签频次矩阵的列均值（每个标签的平均频次）和标准差。
标准化标签频次矩阵：对于每个标签频次矩阵中的值，减去该列的均值并除以该列的标准差。
计算标签频次矩阵的每对标签之间的Pearson相关系数。可以使用NumPy库中的np.corrcoef函数来计算相关系数。

例如下面是一个实现基于Pearson相关系数的标签相似度计算的例子。

源码路径：daima/5/p.py

import numpy as np

# 标签频次矩阵
tag_frequency_matrix = np.array([
    [2, 3, 0, 1],
    [1, 2, 1, 0],
    [0, 2, 3, 2],
    [3, 1, 2, 1]
])

# 计算标签频次矩阵的列均值和标准差
col_means = np.mean(tag_frequency_matrix, axis=0)
col_std = np.std(tag_frequency_matrix, axis=0)

# 标准化标签频次矩阵
normalized_matrix = (tag_frequency_matrix - col_means) / col_std

# 计算标签之间的Pearson相关系数
correlation_matrix = np.corrcoef(normalized_matrix, rowvar=False)

# 打印相似度矩阵
print(correlation_matrix)

在上述代码中，首先定义了一个标签频次矩阵，然后计算了列均值和标准差。接下来，通过将标签频次矩阵减去列均值并除以列标准差，将其标准化。最后，使用np.corrcoef函数计算标准化矩阵的Pearson相关系数，得到标签之间的相似度矩阵。执行后会输出：

[[ 1.         -0.31622777 -0.4        -0.31622777]
 [-0.31622777  1.         -0.63245553  0.        ]
 [-0.4        -0.63245553  1.          0.63245553]
 [-0.31622777  0.          0.63245553  1.        ]]

请注意，Pearson相关系数范围从-1到1，其中1表示完全正相关，-1表示完全负相关，0表示无相关性。

5.2.2 基于标签共现的相似度计算

在推荐系统中，基于标签共现的相似度计算是一种常用的方法，用于评估项目或用户之间的相似度。该方法通过分析项目或用户之间共同出现的标签信息来推断它们之间的关联程度。基于标签共现的相似度计算方法可以用于推荐系统中的多个任务，如项目相似性计算、用户相似性计算、基于内容的推荐和标签推荐等。通过分析标签之间的共现关系，可以发现项目或用户之间的潜在关联，从而提高推荐系统的准确性和个性化程度。

下面是关于基于标签共现的相似度计算的一些关键知识点：

（1）标签共现矩阵（Tag Co-occurrence Matrix）：标签共现矩阵是一个二维矩阵，其中行代表项目或用户，列代表标签，矩阵中的值表示标签在项目或用户中的共现次数或权重。通过计算项目或用户之间的标签共现矩阵，可以获得它们之间的相似度。例如下面是一个展示如何构建商品标签共现矩阵的例子。

源码路径：daima/5/shangbiao.py

import numpy as np
import pandas as pd

# 假设有3个商品和5个标签
items = ['Item1', 'Item2', 'Item3']
tags = ['Tag1', 'Tag2', 'Tag3', 'Tag4', 'Tag5']

# 假设每个商品对应的标签如下
item_tags = {
    'Item1': ['Tag1', 'Tag2', 'Tag3'],
    'Item2': ['Tag2', 'Tag4'],
    'Item3': ['Tag1', 'Tag3', 'Tag5']
}

# 创建标签共现矩阵
cooccurrence_matrix = np.zeros((len(items), len(tags)), dtype=int)

# 遍历每个商品的标签，更新共现矩阵
for item, item_tags in item_tags.items():
    item_index = items.index(item)
    for tag in item_tags:
        tag_index = tags.index(tag)
        cooccurrence_matrix[item_index, tag_index] += 1

# 将共现矩阵转换为DataFrame，便于查看和分析
cooccurrence_df = pd.DataFrame(cooccurrence_matrix, index=items, columns=tags)
print(cooccurrence_df)

在上述代码中，我们假设有3个商品（Item1、Item2、Item3）和5个标签（Tag1、Tag2、Tag3、Tag4、Tag5），通过字典item_tags定义了每个商品对应的标签然后，我们创建了一个全零的标签共现矩阵cooccurrence_matrix，大小为3x5，用于记录标签之间的共现次数。接下来，使用循环遍历每个商品的标签，更新共现矩阵中对应位置的值。最后，将共现矩阵转换为DataFramecooccurrence_df，这样方便查看和分析结果。最后打印出的结果将显示每个商品和标签之间的共现次数：

       Tag1  Tag2  Tag3  Tag4  Tag5
Item1     1     1     1     0     0
Item2     0     1     0     1     0
Item3     1     0     1     0     1

（2）共现计数方法：共现计数方法是最简单的标签共现相似度计算方法之一。它统计了项目或用户之间标签共现的次数，即共同拥有某个标签的次数。共现计数方法忽略了标签出现的次数或权重，仅关注标签是否共同出现。请看下面的例子，功能是使用共现计数方法计算商品之间的标签共现次数。

源码路径：daima/5/gong.py

from collections import defaultdict

# 假设有4个商品和5个标签
items = ['Item1', 'Item2', 'Item3', 'Item4']
tags = ['Tag1', 'Tag2', 'Tag3', 'Tag4', 'Tag5']

# 假设每个商品对应的标签如下
item_tags = {
    'Item1': ['Tag1', 'Tag2', 'Tag3'],
    'Item2': ['Tag2', 'Tag4'],
    'Item3': ['Tag1', 'Tag3', 'Tag5'],
    'Item4': ['Tag1', 'Tag2', 'Tag4']
}

# 初始化共现计数字典
cooccurrence_counts = defaultdict(int)

# 遍历每个商品的标签，更新共现计数字典
for item, item_tags in item_tags.items():
    for i in range(len(item_tags)):
        for j in range(i+1, len(item_tags)):
            tag1 = item_tags[i]
            tag2 = item_tags[j]
            # 增加共现次数
            cooccurrence_counts[(tag1, tag2)] += 1
            cooccurrence_counts[(tag2, tag1)] += 1

# 打印共现计数结果
for (tag1, tag2), count in cooccurrence_counts.items():
    print(f"Tags {tag1} and {tag2} co-occur {count} times.")

在本实例中，假设有4个商品（Item1、Item2、Item3、Item4）和5个标签（Tag1、Tag2、Tag3、Tag4、Tag5），通过字典item_tags定义了每个商品对应的标签。然后，初始化了一个默认值为0的共现计数字典cooccurrence_counts，用于记录标签之间的共现次数。接下来，使用嵌套循环遍历每个商品的标签，使用两个指针i和j来遍历标签列表，并根据标签的组合更新共现计数字典中对应的共现次数。最后，打印输出共现计数字典中每对标签的共现次数：

Tags Tag1 and Tag2 co-occur 2 times.
Tags Tag2 and Tag1 co-occur 2 times.
Tags Tag1 and Tag3 co-occur 2 times.
Tags Tag3 and Tag1 co-occur 2 times.
Tags Tag2 and Tag3 co-occur 1 times.
Tags Tag3 and Tag2 co-occur 1 times.
Tags Tag2 and Tag4 co-occur 2 times.
Tags Tag4 and Tag2 co-occur 2 times.
Tags Tag1 and Tag5 co-occur 1 times.
Tags Tag5 and Tag1 co-occur 1 times.
Tags Tag3 and Tag5 co-occur 1 times.
Tags Tag5 and Tag3 co-occur 1 times.
Tags Tag1 and Tag4 co-occur 1 times.
Tags Tag4 and Tag1 co-occur 1 times.

（3）Jaccard相似度：Jaccard相似度是一种常用的标签共现相似度计算方法。它定义为两个项目或用户共同拥有的标签数目除以它们总共拥有的不同标签数目。Jaccard相似度衡量的是标签的重叠程度，取值范围在0到1之间，值越高表示相似度越高。例如下面是一个基于Python的实用例子，功能是使用Jaccard相似度计算商品之间的标签相似度。

源码路径：daima/5/ja.py

# 假设有4个商品和5个标签
items = ['Item1', 'Item2', 'Item3', 'Item4']
tags = ['Tag1', 'Tag2', 'Tag3', 'Tag4', 'Tag5']

# 假设每个商品对应的标签如下
item_tags = {
    'Item1': ['Tag1', 'Tag2', 'Tag3'],
    'Item2': ['Tag2', 'Tag4'],
    'Item3': ['Tag1', 'Tag3', 'Tag5'],
    'Item4': ['Tag1', 'Tag2', 'Tag4']
}

# 定义Jaccard相似度计算函数
def jaccard_similarity(set1, set2):
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    similarity = intersection / union if union != 0 else 0
    return similarity

# 计算商品之间的标签相似度
for i in range(len(items)):
    for j in range(i+1, len(items)):
        item1 = items[i]
        item2 = items[j]
        tags1 = set(item_tags[item1])
        tags2 = set(item_tags[item2])
        similarity = jaccard_similarity(tags1, tags2)
        print(f"Similarity between {item1} and {item2}: {similarity}")

在这个例子中，假设有4个商品（Item1、Item2、Item3、Item4）和5个标签（Tag1、Tag2、Tag3、Tag4、Tag5），通过字典item_tags定义了每个商品对应的标签。然后，定义了一个计算Jaccard相似度的函数jaccard_similarity，该函数接受两个标签集合作为参数，计算它们之间的Jaccard相似度。接下来，使用嵌套循环遍历每对商品，分别将它们对应的标签集合转换为集合对象，并调用jaccard_similarity函数计算它们之间的相似度。最后，打印输出每对商品之间的标签相似度：

Similarity between Item1 and Item2: 0.25
Similarity between Item1 and Item3: 0.5
Similarity between Item1 and Item4: 0.5
Similarity between Item2 and Item3: 0.0
Similarity between Item2 and Item4: 0.6666666666666666
Similarity between Item3 and Item4: 0.2

（4）余弦相似度：余弦相似度也是一种常用的标签共现相似度计算方法，它定义为两个项目或用户共同拥有的标签向量的内积除以它们各自标签向量的模的乘积。余弦相似度衡量的是标签向量的方向一致程度，取值范围在-1到1之间，值越高表示相似度越高。

（5）加权共现计算方法：加权共现计算方法考虑了标签的权重或重要性，通过使用标签权重来计算相似度。这些权重可以基于标签的频次、热度、TF-IDF等进行计算。例如下面是一个基于Python的实用例子，功能是使用加权共现计算方法计算商品之间的标签共现次数。

源码路径：daima/5/jia.py

from collections import defaultdict

# 假设有4个商品和5个标签
items = ['Item1', 'Item2', 'Item3', 'Item4']
tags = ['Tag1', 'Tag2', 'Tag3', 'Tag4', 'Tag5']

# 假设每个商品对应的标签及其权重如下
item_tags = {
    'Item1': {'Tag1': 3, 'Tag2': 2, 'Tag3': 1},
    'Item2': {'Tag2': 2, 'Tag4': 1},
    'Item3': {'Tag1': 2, 'Tag3': 1, 'Tag5': 3},
    'Item4': {'Tag1': 1, 'Tag2': 2, 'Tag4': 2}
}

# 初始化加权共现计数字典
weighted_cooccurrence_counts = defaultdict(float)

# 遍历每个商品的标签及其权重，更新加权共现计数字典
for item, item_tags in item_tags.items():
    for tag1, weight1 in item_tags.items():
        for tag2, weight2 in item_tags.items():
            # 增加加权共现次数
            weighted_cooccurrence_counts[(tag1, tag2)] += weight1 * weight2

# 打印加权共现计数结果
for (tag1, tag2), count in weighted_cooccurrence_counts.items():
    print(f"Tags {tag1} and {tag2} have a weighted co-occurrence count of {count}.")

在这个例子中，我们假设有4个商品（Item1、Item2、Item3、Item4）和5个标签（Tag1、Tag2、Tag3、Tag4、Tag5），通过字典item_tags定义了每个商品对应的标签及其权重。然后，初始化了一个默认值为0.0的加权共现计数字典weighted_cooccurrence_counts，用于记录标签之间的加权共现次数。接下来，使用嵌套循环遍历每个商品的标签及其权重，并根据标签的组合以及对应的权重更新加权共现计数字典中对应的加权共现次数。最后，打印输出加权共现计数字典中每对标签的加权共现次数：

Tags Tag1 and Tag1 have a weighted co-occurrence count of 14.0.
Tags Tag1 and Tag2 have a weighted co-occurrence count of 8.0.
Tags Tag1 and Tag3 have a weighted co-occurrence count of 5.0.
Tags Tag2 and Tag1 have a weighted co-occurrence count of 8.0.
Tags Tag2 and Tag2 have a weighted co-occurrence count of 12.0.
Tags Tag2 and Tag3 have a weighted co-occurrence count of 2.0.
Tags Tag3 and Tag1 have a weighted co-occurrence count of 5.0.
Tags Tag3 and Tag2 have a weighted co-occurrence count of 2.0.
Tags Tag3 and Tag3 have a weighted co-occurrence count of 2.0.
Tags Tag2 and Tag4 have a weighted co-occurrence count of 6.0.
Tags Tag4 and Tag2 have a weighted co-occurrence count of 6.0.
Tags Tag4 and Tag4 have a weighted co-occurrence count of 5.0.
Tags Tag1 and Tag5 have a weighted co-occurrence count of 6.0.
Tags Tag3 and Tag5 have a weighted co-occurrence count of 3.0.
Tags Tag5 and Tag1 have a weighted co-occurrence count of 6.0.
Tags Tag5 and Tag3 have a weighted co-occurrence count of 3.0.
Tags Tag5 and Tag5 have a weighted co-occurrence count of 9.0.
Tags Tag1 and Tag4 have a weighted co-occurrence count of 2.0.
Tags Tag4 and Tag1 have a weighted co-occurrence count of 2.0.

5.2.3 基于标签语义的相似度计算

基于标签语义的相似度计算是推荐系统中常用的一种方法，它利用标签之间的语义信息来评估它们之间的相似程度。该方法可以帮助推荐系统更准确地理解和比较标签之间的含义，从而提供更精确的推荐结果。

下面介绍两种常用的基于标签语义的相似度计算方法：

（1）基于词向量的相似度计算

这种方法使用预训练的词向量模型（如Word2Vec、GloVe或FastText）将标签表示为向量，并通过计算向量之间的相似度来评估标签之间的语义相似度。常用的相似度度量方法包括余弦相似度和欧氏距离，较接近的向量表示的标签通常具有更相似的语义含义。例如下面的代码演示了这一用法：

from gensim.models import KeyedVectors

# 加载预训练的词向量模型
word_vectors = KeyedVectors.load_word2vec_format('path_to_word2vec_model.bin', binary=True)

# 计算标签之间的余弦相似度
def cosine_similarity(tag1, tag2):
    similarity = word_vectors.similarity(tag1, tag2)
    return similarity

# 示例使用
similarity_score = cosine_similarity('tag1', 'tag2')

在上述代码中，'path_to_word2vec_model.bin' 是一个占位符，表示预训练的词向量模型文件的路径。在使用基于词向量的相似度计算方法时，您需要提供实际的词向量模型文件。我们可以从以下资源中获取适合您的应用场景的预训练词向量模型：

Word2Vec官方网站：Google在Mikolov等人的论文中提出的Word2Vec模型已经被开源，并且可以从官方网站下载预训练的模型。您可以访问以下网址获取Word2Vec模型：https://code.google.com/archive/p/word2vec/
Gensim模型库：Gensim是一个流行的Python库，提供了加载和使用预训练词向量模型的功能。您可以使用Gensim库中提供的KeyedVectors类来加载和操作预训练的Word2Vec模型。同时，Gensim还提供了一些常用的词向量模型下载接口。您可以访问Gensim的官方文档获取更多信息：https://radimrehurek.com/gensim/models/keyedvectors.html
GloVe官方网站：https://nlp.stanford.edu/projects/glove/
FastText官方网站：https://fasttext.cc/docs/en/english-vectors.html
Kaggle：Kaggle是一个数据科学和机器学习社区，提供了各种类型的数据和模型。您可以在Kaggle上搜索适合您的预训练词向量模型。

（2）基于语义网络的相似度计算：

这种方法利用标签之间的语义关联关系构建语义网络，并通过网络上的路径距离或相似度传播算法来计算标签之间的语义相似度。常用的语义网络包括WordNet和ConceptNet。在这些网络中，标签之间的连接表示它们之间的关联关系，例如上位词、下位词、关联词等。例如下面的代码演示了这一用法：

from nltk.corpus import wordnet

# 计算标签之间的路径相似度（基于WordNet）
def path_similarity(tag1, tag2):
    synset1 = wordnet.synsets(tag1)
    synset2 = wordnet.synsets(tag2)
    if synset1 and synset2:
        similarity = synset1[0].path_similarity(synset2[0])
        return similarity
    else:
        return 0

# 示例使用
similarity_score = path_similarity('tag1', 'tag2')

这些方法可以根据具体的应用场景和数据情况进行适当的调整和扩展。它们可以用于计算标签之间的语义相似度，并作为推荐系统中的重要特征之一，用于推断用户喜好、计算商品之间的相似度等。