亲和性分析——商品推荐（机器学习）

程序猿只爱喝怡宝

已于 2022-06-29 13:32:48 修改

阅读量2.1k

点赞数 5

文章标签： Numpy 商品推荐支持度置信度规则排序

于 2022-06-29 13:23:09 首次发布

本文链接：https://blog.csdn.net/m0_56986719/article/details/125519817

版权

本文详细介绍了如何使用Numpy处理数据，计算商品购买行为的支持度和置信度，以及通过排序找出最佳推荐规则。从数据加载到规则优化，涵盖关键步骤和Python实践技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

亲和性分析——商品推荐

一、第一关

任务描述
本关任务：编写代码，使用 Numpy 加载txt文件中的数据。

相关知识
为了完成本关任务，你需要掌握：1.Numpy 是什么，2.如何使用 Numpy 加载文件中的数据。

Numpy 是什么
NumPy 是 Python 语言的一个扩充程序库。支持高级大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。本关实训主要是使用 Numpy 读取文件中的数据。

代码如下：

input_file = input()   #接收要导入的文件  
#********* Begin *********#  
import numpy as np   
data_file = input_file  
X = np.loadtxt(data_file,delimiter=",")  
print(X)  
#********* End *********#

二、第2关：处理 Numpy 加载到的数据

任务描述
本关任务：编写一个能计算商品购买人数的小程序。

相关知识
为了完成本关任务，你需要掌握：1.如何将文字规则用数值表示，2.如何处理从 Data 中获取的数据。

代码如下：

input_file = input()   #接收要导入的文件  
#********* Begin *********#  
import numpy as np   
data_file = input_file  
X = np.loadtxt(data_file,delimiter=",")  
num_milk_purchases = 0  
num_bread_purchases = 0  
num_milkbread_purchases = 0
for sample in X:  
    #统计多少人买了牛奶  
    if sample[0] == 1:  
        num_milk_purchases += 1  
        #多少人即买了牛奶又买了面包  
        if sample[1] == 1:  
            num_milkbread_purchases += 1  
    #统计多少人买了面包  
    if sample[1] == 1:  
        num_bread_purchases += 1
print("{0} people bought milk".format(num_milk_purchases))  
print("{0} people bought bread".format(num_bread_purchases))  
print("{0} people bought both milk and bread".format(num_milkbread_purchases))  
#********* End *********#

三、第3关：商品推荐——计算支持度和置信度

任务描述
本关任务：编写一个程序，对导入的商品数据Data进行统计，求出每条规则的支持度和置信度。

相关知识
为了完成本关任务，你需要掌握：如何计算每条规则的支持度和置信度。

衡量规则优劣的衡量方法
规则的优劣有多种衡量方法，常用的是支持度(support) 和 置信度(confidence)。

支持度：支持度衡量的是给定规则应验的比例

代码如下：

input_file = input()   #接收要导入的文件  
import numpy as np   
data_file = input_file  
Data = np.loadtxt(data_file,delimiter=" ")
from collections import defaultdict  
features = ["milk","bread","apple","banana","ham"]  #存放商品名称  
valid_rules = defaultdict(int)      #存放所有的规则应验的情况  
invaild_rules = defaultdict(int)    #存放规则无效  
num_occurances = defaultdict(int)   #存放条件相同的规则数量
#********* Begin *********#  
#-----在此补充算法计算每条规则的置信度和支持度-----#  
for sample in Data:             
    for premise in range(4):  
        if sample[premise] == 0:continue   
        num_occurances[premise] += 1        
        for conclusion in range(len(features)):  
            if premise == conclusion:continue  
            if sample[conclusion] == 1:  
                valid_rules[(premise,conclusion)] += 1  
            else:  
                invaild_rules[(premise,conclusion)] += 1            
support = valid_rules
confidence = defaultdict(float)  
for premise,conclusion in valid_rules.keys():  
    rule = (premise,conclusion)  
    confidence[rule] = valid_rules[rule] / num_occurances[premise]  
def print_rule(premise,conclusion,support,confidence,features):  
    premise_name = features[premise]  
    conclusion_name = features[conclusion]
    print("Rule: If a person buys {0} they will also buy {1}".format(premise_name,conclusion_name))  
    print("- Confidence: {0:.3f}".format(confidence[(premise,conclusion)]))    
    print("- Support: {0}".format(support[(premise,conclusion)]))
#********* End *********#  
#-----请勿删除Begin-End之外的代码框架-----#  
premise = int(input())         #获取条件  
conclusion = int(input())      #获取结论  
print_rule(premise, conclusion, support, confidence, features)

四、第4关：商品推荐——排序找出最佳规则

任务描述
本关任务：求出支持度排前5的规则。

相关知识
为了完成本关任务，你需要掌握：如何对支持度字典进行排序。

如何对支持度字典进行排序
得到所有规则的支持度和置信度后，为了找出最佳规则，还需要根据支持度和置信度对规则进行排序，我们分别看一下这两个标准。

要找出支持度最高的规则，首先对支持度字典进行排序。字典中的元素（一个键值对）默认为没有前后顺序；字典的items()函数返回包含字典所有元素的列表。我们使用itemgetter()类作为键，这样就可以对嵌套列表进行排序。itemgetter(1)表示以字典各元素的值（这里为支持度）作为排序依据，reverse=True表示降序排列。

代码如下：

input_file = input()   #接收要导入的文件  
import numpy as np   
data_file = input_file  
Data = np.loadtxt(data_file,delimiter=" ")  
from collections import defaultdict  
features = [ "milk", "bread", "apple", "banana","ham"]  #存放商品名称  
valid_rules = defaultdict(int)      #存放所有的规则应验的情况  
invaild_rules = defaultdict(int)    #存放规则无效  
num_occurances = defaultdict(int)   #存放条件相同的规则数量  
#********* Begin *********#  
#-----在此补充算法得到所有规则的置信度和支持度，并输出支持度最高的前5条规则-----#  
for sample in Data:             
    for premise in range(4):  
        if sample[premise] == 0:continue   
        num_occurances[premise] += 1        
        for conclusion in range(len(features)):  
            if premise == conclusion:continue  
            if sample[conclusion] == 1:  
                valid_rules[(premise,conclusion)] += 1  
            else:  
                invaild_rules[(premise,conclusion)] += 1              
support = valid_rules  
confidence = defaultdict(float)  
for premise,conclusion in valid_rules.keys():  
    rule = (premise,conclusion)  
    confidence[rule] = valid_rules[rule] / num_occurances[premise]  
def print_rule(premise,conclusion,support,confidence,features):  
    premise_name = features[premise]  
    conclusion_name = features[conclusion]  
    print("Rule: If a person buys {0} they will also buy {1}".format(premise_name,conclusion_name))  
    print("- Confidence: {0:.3f}".format(confidence[(premise,conclusion)]))    
    print("- Support: {0}".format(support[(premise,conclusion)]))  
from operator import itemgetter   
sorted_support = sorted(support.items(), key=itemgetter(1), reverse=True)
for index in range(5):   
    print("Rule #{0}".format(index + 1))   
    premise, conclusion = sorted_support[index][0]   
    print_rule(premise, conclusion, support, confidence, features)   
#********* End *********#  
#-----请勿删除Begin-End之外的代码框架-----#