四.数据关联性分析

数据关联分析用于挖掘数据对象之间的关系,例如啤酒和尿布的案例

一.基本概念

通过实例认识项集,支持度,频繁项集,关联规则,置信度,强关联规则,支持度,置信度

  • 运动器的历史购买数据
TID网球拍网球运动鞋羽毛球
11110
21100
31000
41010
50111
61100
  • TID: 表示每一次购物单的序号
  • 0和1: 表示是否在本购物单中存在该商品

符号设置:

  • D: 交易数据库,实例中的表格
  • T: 每次交易事务,实例中一列的购买数据
  • I: 项的集和{I1,I2,…,In}

1.项集概念

项集: 在集和中,包含k个项的集和称为k项集

  • 实例如下
TID集和项集
1{网球拍,网球,运动鞋}3项集
2{网球拍,网球}2项集
3{网球拍,}1项集
4{网球拍,运动鞋}2项集
5{网球,运动鞋,羽毛球}3项集
6{网球拍,网球}2项集

2.关联规则

A=网球拍,B=网球
p ( A = > B ) = p ( A B ) = c o u n t ( A U B ) ∣ D ∣ p(A=>B)=p(AB)=\frac{count(AUB)}{|D|} p(A=>B)=p(AB)=Dcount(AUB)

3.支持度和置信度概念

支持度: 表示数据集D中出现项集A的概率
公 式 : s u p p o r t ( A ⊆ T ) = c o u n t ( A b a o h a n ) ∣ D ∣ 公式: support(A⊆T)=\frac{count(Abaohan)}{|D|} :support(AT)=Dcount(Abaohan)
置信度: 表示关联规则前价出现时后价查询的概率。
s u p p o r t ( A = > B ) = c o u n t ( A ∪ B ) ∣ D ∣ support(A=>B)=\frac{count(A∪B)}{|D|} support(A=>B)=Dcount(AB)

  • 实例如下
    探究网球拍和网球的支持度
    x=买网球拍事务集,y=买网球事务集求p(x=>y)=p(xy)
    x=5,y=4,x∪y=3,D=6
    支 持 度 : x ∪ y ∣ D ∣ = 3 / 6 = 0.5 支持度:\frac{x∪y}{|D|}=3/6=0.5 :Dxy=3/6=0.5
    置 信 度 : x ∪ y x = 3 / 5 = 0.6 置信度:\frac{x∪y}{x}=3/5=0.6 :xxy=3/5=0.6

4.频繁项集

自行数组阈值,若支持度>=阈值就是频繁项集
设阈值为=0.4
p(网球拍=》网球)支持度=0.5 是频繁
p(网球拍=》运动鞋)支持度=0.33 不是频繁

5.超项集

S1={ABC} ,S2={ABC?} ,?: 量子叠加态

  • S1中所有元素在S2中存在
  • S2可能包含S1中没有的元素

S2是S1的超项集
S1是S2的子集

6.闭频繁集

?: 量子叠加态

S1BC
S2ABCD
S3BCD
S4AD

S2是S1的超项集
S1支持度=3/4
S2支持度=1/4
S1!=S2则S1是闭项集
若S1>阈值S1是闭频繁集

7.极大频繁集

S1BC
S2ABCD
S3BCD
S4AD

阈值=0.6

  • S1的所有真超项集:S2,S3
  • S1是频繁项集,S2不是频繁项集S3不是频繁项集
  • S1是极大频繁项集。声明S1项集进一步扩展就不是频繁项集
    S 1 ⊆ S 1 所 有 的 真 超 项 集 , S 1 是 频 繁 项 集 , S 1 所 有 的 真 超 项 集 不 是 频 繁 项 集 , S 1 是 极 大 频 繁 项 集 S_1⊆S_1所有的真超项集,S_1是频繁项集,S_1所有的真超项集不是频繁项集,S_1是极大频繁项集 S1S1S1,S1,S1

8.反单调性

若项集A是频繁项集,则其所有子集为频繁项
若项集A不是频繁项集,则A所有超项集为不频繁项集

9.APriori算法

  • 连接步:
  • 减枝步:

示例

S1ABC
S2BCD
S3CE
S4ABC

阈值=0.3

N项集N=1N=2N=3
频繁项集{A}{B}{C}{D}{AC}{BC}{ABC}

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

唐-import-某人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值