数据挖掘学习笔记7-关联规则

一、关联规则
关联规则即P→Q且P∩Q≠∅(P发生则Q发生)
支持度:support(p→q)=(p∩q)/n
置信度:confidence(p→q)=(p∩q)/p(条件概率)
支持度大于一定值(δ)的项集成为频繁的项集
置信度大于一定值(φ)的关联规则成为强关联规则
大图像(the big picture):
第一步,找出所有频繁项集
第二步,根据项集的所有非空子集,找出所有关联规则
误区:
1.一个规则很强不代表这个规则有意义(条件概率可能比先验概率更低)
2.两个商品出现概率差异较大时,规则可能也没有意义
3.条件概率仅代表相关性,不等于因果性

apriori算法:
数据挖掘十大算法之一
核心理念:
1.一个频繁的项集的任意子集都必须是频繁的
2.一个项集是不频繁的,则他的任意超集也是不频繁的(1的逆否命题)
具体操作:
由一个特定规模(一般为1)的项集开始进行循环操作:
1.扫描数据,剔除不频繁的项集
2.将项集合并为规模+1的项集
重复以上操作,直到项集规模达到最大
在这里插入图片描述
Lk→Ck+1生成规则:
将前K-1项都相同,仅第K项不同的项集合并,作为k+1规模的备选集(注意不一定保证频繁)
在这里插入图片描述
二、序列模式
序列:一系列有先后顺序的元素(项集)
s支持t:t中每一项都是s中对应项的子项(顺序不能改变)
备选集由于有顺序的因素,要比之前的大很多
备选集生成规则:
若s1去掉头,s2去掉尾中间相同,则将s2的尾加到s1的头
在这里插入图片描述
阅读材料:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值