数据挖掘学习笔记7-关联规则

最新推荐文章于 2022-06-16 00:33:17 发布

irony_202

最新推荐文章于 2022-06-16 00:33:17 发布

阅读量1k

点赞数

文章标签：数据挖掘机器学习人工智能

本文链接：https://blog.csdn.net/irony_202/article/details/122884141

版权

一、关联规则
关联规则即P→Q且P∩Q≠∅（P发生则Q发生）
支持度：support（p→q）=（p∩q）/n
置信度：confidence（p→q）=（p∩q）/p（条件概率）
支持度大于一定值（δ)的项集成为频繁的项集
置信度大于一定值（φ）的关联规则成为强关联规则
大图像（the big picture）：
第一步，找出所有频繁项集
第二步，根据项集的所有非空子集，找出所有关联规则
误区：
1.一个规则很强不代表这个规则有意义（条件概率可能比先验概率更低）
2.两个商品出现概率差异较大时，规则可能也没有意义
3.条件概率仅代表相关性，不等于因果性

apriori算法：
数据挖掘十大算法之一
核心理念：
1.一个频繁的项集的任意子集都必须是频繁的
2.一个项集是不频繁的，则他的任意超集也是不频繁的（1的逆否命题）
具体操作：
由一个特定规模（一般为1）的项集开始进行循环操作：
1.扫描数据，剔除不频繁的项集
2.将项集合并为规模+1的项集
重复以上操作，直到项集规模达到最大
在这里插入图片描述
Lk→Ck+1生成规则：
将前K-1项都相同，仅第K项不同的项集合并，作为k+1规模的备选集（注意不一定保证频繁）

二、序列模式
序列：一系列有先后顺序的元素（项集）
s支持t：t中每一项都是s中对应项的子项（顺序不能改变）
备选集由于有顺序的因素，要比之前的大很多
备选集生成规则：
若s1去掉头，s2去掉尾中间相同，则将s2的尾加到s1的头
在这里插入图片描述
阅读材料：