十大机器学习算法（四）—— 关联算法（Apriori，FP-Growth）

最新推荐文章于 2024-07-14 09:09:09 发布

AwesomeDong

最新推荐文章于 2024-07-14 09:09:09 发布

阅读量3.6k

点赞数 1

分类专栏：机器学习文章标签：算法机器学习

本文链接：https://blog.csdn.net/D802366y/article/details/108439810

版权

机器学习专栏收录该内容

5 篇文章 3 订阅

订阅专栏

关联算法

基本概念

支持度：每个商品（商品组合）在总体购物小票中的出现概率： $Support_i = \frac{Count_{sales(i)}}{Count_{all-sales}}$
置信度：当某一商品（商品组合） j 购买时，另一个其他商品（商品组合） i 会购买的概率： $\frac{Count_{sales(i, j)}}{Count_{sales(j)}}$
支持度：当某一组合（i | j）组合售卖时，j 的出现对 i 商品售卖的提升程度： $\frac{Confidence(i|j)}{Support(i)}$ ，支持度大于1，表示有提高。

最小支持度的设置

支持度表示商品（商品组合）在总体中的出现概率，总体小票数量越大，最小支持度 ${min}\_ {support}$ 应该设置的越小，以保证可以存在频繁项集。频繁项集越少时，应当调小最小支持度。
置信度表示一个商品（商品组合）的出现，另一商品（商品组合）出现的概率，总体数量越多，最小置信度应当越小。当关联规则太少时，应当调小最小置信度

目的

找到数据集的频繁项集，支持度大于最小支持度的那些集合。

Apriori

查找所有的组合（K=1，2，3…），如果 K=1 时非频繁项集，那么 K=2 包含他的组合也肯定定是非频繁项集，最后找出所有频繁项集。
在这里插入图片描述

工具

根据标签编码的格式，分为两种工具：

#接收transaction格式
from efficient_apriori import apriori

#接收one-hot编码格式
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

FP-Growth

由于 Apriori 算法空间复杂度较大，遍历所有候选项集。
因此改用树结构节省空间，

首先将不满足最小支持度的项删除构建一个数据集，扫描一边数据集；
接着对筛选后的数据集排序，构建一棵树，根节点为 NULL；
将数据集插入到树中。

如下问题中：
在这里插入图片描述
假设最小出现次数为3，最小支持度为：0.6，构建树：

在树的叶子节点处开始，寻找频繁项集：将啤酒拎出来，构建剩余数据集的transaction，并将所有transaction中物品的出现次数设置为叶子节点中啤酒的出现次数。
在新的 transaction 中的寻找频繁项集（出现次数为：3），发现只有尿布。因此包含啤酒的频繁项集为：{（啤酒），（啤酒尿布）}。
去掉啤酒，重复 4-5 ，遍历剩下的树节点。，得到所有的频繁项集。