R语言 Apriori挖掘关联规则的频繁项集算法

Mrrunsen

于 2023-10-22 14:23:48 发布

阅读量174

点赞数

分类专栏： R语言大学作业文章标签： r语言算法开发语言

本文链接：https://blog.csdn.net/Mrrunsen/article/details/133972813

版权

R语言大学作业专栏收录该内容

1394 篇文章 6148 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了使用R语言进行关联规则挖掘的过程，包括寻找频繁项集和生成关联规则。通过Apriori算法，计算支持度和置信度，如购物篮分析中的牛奶与面包的关系（支持度3%，置信度40%）。此外，文章还讨论了频繁项集和强规则的概念，并提及了数据文件user_tag.csv。

摘要由CSDN通过智能技术生成

一、挖掘步骤：
1.依据支持度找出所有频繁项集（频度）
2.依据置信度产生关联规则（强度）

二、基本概念
对于A->B
①支持度：P(A ∩ B)，既有A又有B的概率
②置信度：
P(B|A)，在A发生的事件中同时发生B的概率 p(AB)/P(A) 例如购物篮分析：牛奶 ⇒ 面包
例子：[支持度：3%，置信度：40%]
支持度3%：意味着3%顾客同时购买牛奶和面包
置信度40%：意味着购买牛奶的顾客40%也购买面包
③如果事件A中包含k个元素，那么称这个事件A为k项集事件A满足最小支持度阈值的事件称为频繁k项集。
④同时满足最小支持度阈值和最小置信度阈值的规则称为强规则

三、实现
频繁项集的子集也是频繁的

/**
* Apriori挖掘关联规则的频繁项集算法
* 1.依据支持度找出所有频繁项集（频度）
* 2.依据置信度产生关联规则（强度）
* 支持度3%：意味着3%顾客同时购买牛奶和面包
* 置信度40%：意味着购买牛奶的顾客40%也购买面包
*/

/**
* 建立数学模型
*/
FileDataModel <- function(file){
    #读取文件数据，列属性有头部不要显示header=FALSE
    data <- read.csv( file, header=FALSE )
    tag_data <- cbind( data[,1], data[,2]

了解本专栏

超级会员免费看

Mrrunsen

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
R语言 Apriori挖掘关联规则的频繁项集算法

P(B|A)，在A发生的事件中同时发生B的概率 p(AB)/P(A) 例如购物篮分析：牛奶 ⇒ 面包。③如果事件A中包含k个元素，那么称这个事件A为k项集事件A满足最小支持度阈值的事件称为频繁k项集。④同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。置信度40%：意味着购买牛奶的顾客40%也购买面包。①支持度：P(A ∩ B)，既有A又有B的概率。支持度3%：意味着3%顾客同时购买牛奶和面包。例子：[支持度：3%，置信度：40%]2.依据置信度产生关联规则（强度）频繁项集的子集也是频繁的。
复制链接

扫一扫