一、挖掘步骤:
1.依据支持度找出所有频繁项集(频度)
2.依据置信度产生关联规则(强度)
二、基本概念
对于A->B
①支持度:P(A ∩ B),既有A又有B的概率
②置信度:
P(B|A),在A发生的事件中同时发生B的概率 p(AB)/P(A) 例如购物篮分析:牛奶 ⇒ 面包
例子:[支持度:3%,置信度:40%]
支持度3%:意味着3%顾客同时购买牛奶和面包
置信度40%:意味着购买牛奶的顾客40%也购买面包
③如果事件A中包含k个元素,那么称这个事件A为k项集事件A满足最小支持度阈值的事件称为频繁k项集。
④同时满足最小支持度阈值和最小置信度阈值的规则称为强规则
三、实现
频繁项集的子集也是频繁的
/**
* Apriori挖掘关联规则的频繁项集算法
* 1.依据支持度找出所有频繁项集(频度)
* 2.依据置信度产生关联规则(强度)
* 支持度3%:意味着3%顾客同时购买牛奶和面包
* 置信度40%:意味着购买牛奶的顾客40%也购买面包
*/
/**
* 建立数学模型
*/
FileDataModel <- function(file){
#读取文件数据,列属性有头部不要显示header=FALSE
data <- read.csv( file, header=FALSE )
tag_data <- cbind( data[,1], data[,2]