Apriori算法——关联分析规则

kang：）

已于 2024-06-20 23:01:04 修改

阅读量285

点赞数 5

文章标签：算法

于 2024-06-20 23:00:12 首次发布

本文链接：https://blog.csdn.net/m0_64823626/article/details/139844536

版权

一、目的
通过分析商品的关联规则，将商品绑定一起，来提高商品的销售几率。
用于发现大量数据中，各组数据之间的联系。

二、概念
关联分析主要是三度概念——支持度（support），置信度（support），提升度（lift）：

支持度（support）
不同“项集”，受顾客的欢迎程度不同。支持度(Support)可以表示项集在事务中出现的概率（频率），也可以理解成顾客对某一个项集的“支持程度”。
{X}的支持度 = {X}在事务中出现的次数 / 事务总数；
置信度（support）
置信度(Confidence)可用于衡量关联规则的可靠程度，表示在前件出现的情况下，后件出现的概率。一般来说，概率越高，规则的可靠性越强。
{X}→{Y}的置信度 = {X，Y}的支持度 / {X}的支持度；
提升度（lift）
关联规则既有促进关系，也有抑制关系。因而，还需引入提升度(Lift)对它们进行判断。lift大于1为促进关系，lift小于1为抑制关系。
{X}→{Y}的提升度 = {X}→{Y}的置信度 / {Y}的支持度；
最小支持度
用于筛掉那些不符合需求的项集。被留下来的项集（≥ 最小支持度），被称为频繁项集。有了频繁项集，就可以生产关联规则了。
关联规则
关联分析是探索数据之间联系的技术，而数据之间的联系，我们用关联规则来表示，表达式为：{X}→{Y}（X 和 Y 之间不存在相同项）。
规则有顺序之分，为了方便描述，我们把规则前面的项集叫前件，把规则后面的项集叫后件。
假设有频繁项集 {奶茶，薯条}，（这里奶茶为前件，薯条为后件），它可以生成2条关联规则：{奶茶}→{薯条}和{薯条}→{奶茶}。前者的意思是，购买“奶茶”的顾客，和购买“薯条”之间，可能存在有某种联系！
三、Apriori算法流程
要使用Apriori算法，我们需要提供两个参数，数据集和最小支持度。我们从前面已经知道了Apriori会遍历所有的物品组合，怎么遍历呢？答案就是递归。先遍历1个物品组合的情况，剔除掉支持度低于最小支持度的数据项，然后用剩下的物品进行组合。遍历2个物品组合的情况，再剔除不满足条件的组合。不断递归下去，直到不再有物品可以组合。

Python实战

1. 用到的库是mlxtend，及参数介绍
————————————————

def apriori(df, min_support=0.5,  
            use_colnames=False, 
            max_len=None)
参数如下：
df：这个不用说，就是我们的数据集。
min_support：给定的最小支持度。
use_colnames：默认False，则返回的物品组合用编号显示，为True的话直接显示物品名称。
max_len：最大物品组合数，默认是None，不做限制。如果只需要计算两个物品组合的话，便将这个值设置为2。

import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
 
#设置数据集
dataset = [['牛奶','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'],
        ['莳萝','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'],
        ['牛奶','苹果','芸豆','鸡蛋'],
        ['牛奶','独角兽','玉米','芸豆','酸奶'],
        ['玉米','洋葱','洋葱','芸豆','冰淇淋','鸡蛋']]
        
te = TransactionEncoder()
#进行 one-hot 编码
te_ary = te.fit(records).transform(records)
df = pd.DataFrame(te_ary, columns=te.columns_)
#利用 Apriori 找出频繁项集
freq = apriori(df, min_support=0.05, use_colnames=True)

首先，需要先将商品进行one-hot编码，编码后用boolean值表示。所谓ont-hot编码呢，直观来说就是有多少个状态就有多少比特，而且只有一个比特为1，其他全为0的一种码制。比如冰淇淋只存在最后一共交易单中，其他交易中都没出现。那冰淇淋就可以用[0,0,0,0,1]来表示。

编码后的数据如下：

 冰淇淋     洋葱     牛奶    独角兽     玉米    肉豆蔻    芸豆     苹果     莳萝     酸奶     鸡蛋
0  False        True   True       False      False    True     True    False    False   True     True
1  False        True  False       False      False    True     True    False     True   True     True
2  False       False   True       False      False   False     True     True    False  False     True
3  False       False   True        True       True   False     True    False    False   True    False
4   True        True  False       False       True   False     True    False    False  False     True

    support      itemsets
0       0.6          (洋葱)
1       0.6          (牛奶)
2       1.0          (芸豆)
3       0.6          (酸奶)
4       0.8          (鸡蛋)
5       0.6      (芸豆, 洋葱)
6       0.6      (洋葱, 鸡蛋)
7       0.6      (牛奶, 芸豆)
8       0.6      (酸奶, 芸豆)
9       0.8      (芸豆, 鸡蛋)
10      0.6  (芸豆, 洋葱, 鸡蛋)

association_rules(df, metric="confidence",
                      min_threshold=0.8,
                      support_only=False):
 
参数介绍：
- df：这个不用说，就是 Apriori 计算后的频繁项集。
- metric：可选值['support','confidence','lift','leverage','conviction']。
里面比较常用的就是置信度和支持度。这个参数和下面的min_threshold参数配合使用。
- min_threshold：参数类型是浮点型，根据 metric 不同可选值有不同的范围，
    metric = 'support'  => 取值范围 [0,1]
    metric = 'confidence'  => 取值范围 [0,1]
    metric = 'lift'  => 取值范围 [0, inf]
support_only：默认是 False。仅计算有支持度的项集，若缺失支持度则用 NaNs 填充。

import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
 
#设置数据集
dataset = [['牛奶','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'],
        ['莳萝','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'],
        ['牛奶','苹果','芸豆','鸡蛋'],
        ['牛奶','独角兽','玉米','芸豆','酸奶'],
        ['玉米','洋葱','洋葱','芸豆','冰淇淋','鸡蛋']]
        
te = TransactionEncoder()
#进行 one-hot 编码
te_ary = te.fit(records).transform(records)
df = pd.DataFrame(te_ary, columns=te.columns_)
#利用 Apriori 找出频繁项集
freq = apriori(df, min_support=0.05, use_colnames=True)
 
#导入关联规则包
from mlxtend.frequent_patterns import association_rules
#计算关联规则
result = association_rules(freq, metric="confidence", min_threshold=0.6)