关联规则笔记1


前言

关联分析:基于已有数据,找到事物间的简单关联关系或序列关联关系。
关联分析成果(即关联关系)的核心体现形式是关联规则,包括简单关联规则或序列关联规则。

一提到关联规则,就会想到Apriori算法,又会想到啤酒尿布的故事。但我们老师说这个故事是用来吸引人用的,确实这两个事物放在一起,挺有趣的。

今天先介绍一下有关简单关联规则的基本概念,这次参考的主要是 薛薇. (2014). R语言数据挖掘 (3rd ed.). 中国人民大学. ,收获颇多,也把好东西整理好分享给大家。之后再尝试用R语言练习一些简单的问题。


一、概念

1.事务和项集

名称 解释
事务 简单关联分析的分析对象。(行为)
事务标识 确定一个事务的唯一标识。
项目集合(简称项集) 一组项目的集合
项目 例:商品、网页链接、险种

事务=事务标识(TID)+项目集合X

I是项目全体,包含K个项目,记为 I = { I 1 , I 2 , ⋯   , I k } I=\left\{ I_1,I_2,\cdots ,I_k \right\} I={ I1,I2,,Ik}
则项集 X ⊆ I X\subseteq I XI

若项集X中包含k个项目,则称项集X为k-项集


下表是4名顾客某一天的购买数据,TID是事务标识,A,B,C,D,E分别为商品代码。

TID 项集X
1 {B,E}
2 {A,C,D}
3 {A,B,C,E}
4 {B,D}

这里包含4个事务,I包含5个项目(k=5)。对于3号顾客(第3个事务),一次性购买了4中商品,其项集X是个4-项集。本例包含2个2-项集、1个3-项集、1个4-项集。


2.表示形式

一般表示形式: X → Y ( S = s % , C = c % ) X\rightarrow Y\left( S=s\%,C=c\% \right) XY(S=s%,C=c%)
其中:
X:规则的前项(项目、项集、包含项目以及逻辑操作符的逻辑表达式)
Y:规则的后项(一个项目,表示某种结论或事实)
S:支持度
C:置信度
含义:有c%的把握程度相信有前项则会有后项,该关联规则的适用性为s%。

例:
{ 性别 ( 男 ) ⋂ 收入 ( > 5000 ) } → { 品牌 ( A ) } ( S = 80 % , C = 85 % ) \left\{ \text{性别}\left( \text{男} \right) \bigcap{\text{收入}\left( >5000 \right)} \right\} \rightarrow \left\{ \text{品牌}\left( A \right) \right\} \left( S=80\%,C=85\% \right) { 性别()收入(>5000)}{ 品牌(A)}(S=80%,C

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值