协同过滤与关联规则分析：原理、实现与应用

最新推荐文章于 2025-02-27 00:16:50 发布

s12617

最新推荐文章于 2025-02-27 00:16:50 发布

阅读量2k

点赞数 36

文章标签：数据挖掘数据分析

本文链接：https://blog.csdn.net/qq_64355981/article/details/139831689

版权

引言

在推荐系统领域，协同过滤算法和关联规则分析是两种常用的技术。协同过滤算法通过分析用户之间的行为相似性来推荐项目，而关联规则分析则用于发现项目之间的有趣关系。本文将深入探讨协同过滤算法的原理、相似度计算方法、Python 实现，并展示如何在 DataFrame 中应用相关系数。最后，将介绍关联规则分析的基本概念，并详细说明 Apriori 算法的步骤和代码实现。

协同过滤算法的原理

协同过滤算法主要分为两类：用户基协同过滤（User-based Collaborative Filtering）和项目基协同过滤（Item-based Collaborative Filtering）。

用户基协同过滤：找到与目标用户行为相似的其他用户，然后推荐这些用户喜欢的物品。
项目基协同过滤：基于用户对项目的评分，找到相似的项目并推荐给用户。

相似度计算的常用方法

相似度计算是协同过滤算法的核心。以下是几种常用的相似度计算方法：

余弦相似度：衡量两个向量的夹角，常用于稀疏数据。
$\Large cos\theta = \frac{<a,b>}{|| a|||| b||}$
皮尔逊相关系数：衡量两个变量之间的线性相关性。
$\Large r=\frac{Cov(X,Y)}{S_XS_Y}$
欧氏距离：衡量两个点在欧几里得空间中的直线距离。
$\Large \sqrt{\sum_{i=1}^n{(X_i^{(a)}-X_i^{(b)})}^2}$
杰卡德相似系数：衡量两个集合交集与并集的比例。

相似度计算的Python实现

以下是一个使用余弦相似度的 Python 实现示例：

import numpy as np

def cosine_similarity(vec1, vec2):
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

# 示例
user1 = np.array([5, 3, 0, 1, 4])
user2 = np.array([4, 0, 0, 1, 1])
similarity = cosine_similarity(user1, user2)
print(f"Cosine Similarity: {similarity}")

以下是一个使用皮尔逊相关系数的Python实现示例：

from scipy.stats import pearsonr
X = [1, 3, 5, 7, 9]
Y = [9, 8, 6, 4, 2]
corr = pearsonr(X, Y)
print("皮尔逊相关系数r的值为：",corr[0],"显著性水平P值为：",corr[1])

# 示例
user1 = np.array([5, 3, 0, 1, 4])
user2 = np.array([4, 0, 0, 1, 1])
similarity = cosine_similarity(user1, user2)
print(f"Cosine Similarity: {similarity}")

以下是一个使用欧式距离的Python实现示例：

import pandas as pd
df = pd.DataFrame([[5, 1, 5], [4, 2, 2], [4, 2, 1]], columns=['用户1', '用户2', '用户3'], index=['物品A', '物品B', '物品C'])
import numpy as np
dist = np.linalg.norm(df.iloc[0] - df.iloc[1])

关联规则分析的基本概念

关联规则分析是一种用于发现变量之间有趣关系的数据分析方法。它通过挖掘大型数据库中的项目集来发现这些项目之间的频繁模式、关联、相关性。

Apriori算法

Apriori算法是一种用于关联规则学习的经典算法。以下是 Apriori 算法的步骤：

最小支持度：确定一个最小支持度阈值，找出所有满足该阈值的频繁项集。
生成候选项集：从频繁项集中生成候选 k-项集。
剪枝：移除不满足最小支持度的项集。
生成关联规则：从频繁项集中生成强关联规则。

Apriori算法的Python实现

以下是一个简单的 Apriori 算法 Python 实现示例：

from itertools import combinations
from collections import defaultdict

def apriori_algorithm(dataset, min_support, min_confidence):
    # 数据集转换为集合形式
    dataset = [set transaction for transaction in dataset]
    # 第一步：找出所有频繁一项集
    one_itemsets = get_one_itemsets(dataset)
    frequent_one_itemsets = prune_itemsets(one_itemsets, min_support, dataset)
    
    # 后续步骤：找出所有频繁 k-项集
    k = 2
    while True:
        candidate_k_itemsets = generate_candidate_itemsets(frequent_one_itemsets, k)
        frequent_k_itemsets = prune_itemsets(candidate_k_itemsets, min_support, dataset)
        if not frequent_k_itemsets:
            break
        generate_rules(frequent_k_itemsets, dataset, min_confidence)
        k += 1

# 辅助函数定义（略）

# 示例数据集
dataset = [
    ['milk', 'bread', 'apples'],
    ['milk', 'bananas'],
    ['bread', 'apples', 'bananas'],
    # 更多交易记录...
]

# 运行 Apriori 算法
apriori_algorithm(dataset, min_support=1, min_confidence=0.5)