数据挖掘 Apriori 算法

最新推荐文章于 2024-04-18 10:13:53 发布

David_Hernandez

最新推荐文章于 2024-04-18 10:13:53 发布

阅读量1.1k

点赞数 1

分类专栏： Data Mining 文章标签：数据挖掘 Data Mining Apriori

本文链接：https://blog.csdn.net/kisslotus/article/details/80323224

版权

Data Mining 专栏收录该内容

2 篇文章 1 订阅

订阅专栏

学习笔记之数据挖掘 Apriori 算法

关联规则

设 A 是一个由项目构成的集合，称为项集。如果项集 A 中包含 k 个项目，则称其为 k 项集。项集 A 在事务数据库 D 中出现的次数占 D 中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集（或频集）。
关联规则的信任度为 $Support ( X \cup Y) / support (X)$

s u p p o r t (X \Rightarrow Y) = P (X \cup Y) c o n f i d e n c e (X \Rightarrow Y) = P (Y | X) (5) (6)

$\begin{align} support (X \Rightarrow Y) = P ( X \cup Y) \\ confidence (X \Rightarrow Y) = P (Y \vert X) \end{align}$

关规则挖掘算法

Agrawal 等人提出的 AIS, Apriori 和 AprioriTid
Cumulate 和 Stratify, Houstsma 等人提出的 SETM
Park 等人提出的 DHP
Savasere 等人的 PARTITION
Han 等人提出的不生成候选集直接生成频繁模式 FPGrowth
其中最有效和有影响的算法为 Apriori, DHP, PARTITION 和 FPGrowth

步骤

通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集；利用频繁项集构造出满足用户最小信任度的规则；挖掘或识别出所有频繁项集是该算法的核心，占整个计算量的大部分。

连接步：为找 $L_k$ 通过将 $L_{k-1}$ 与自身连接产生候选 k 项集的集合。 $L_k$ 表示 k 项集。
剪枝步： $C_k$ 是 $L_k$ 的超集，也就是说， $C_k$ 的成员可以是，也可以不是频繁的，但所有的频繁 k 项集都包含在 $C_k$ 中。任何非频繁的 (k-1) 项集都不是频繁 k 项集的子集。