机器学习算法(一)——关联规则Apriori算法及R语言实现方法

关联规则算法算是一种十分常用的机器学习算法,无论是面试还是日后工作中都会经常出现,那么本篇小博就记录一下自己学习关联规则经典算法Apriori的笔记。

1、概述

Apriori算法是用一种称为逐层搜索的迭代方法,从项集长度k=1开始,选出频繁的k=1项集,根据先验性质:频繁项集的子集一定是频繁的(逆否命题:非频繁项集的超集一定是非频繁的,通俗的说就是某件事发生的概率很低,比这件事发生条件更严苛的事情发生的概率会更低),筛选k=2项集中的频繁项集,以此迭代k=3...。每迭代一次都要完整的扫描一次数据库。

2、关联规则三度:

支持度:占比

置信度:条件概率

提升度:相关性

3、R语言示例代码如下:(小众语言的辛酸:选项里没有。。)

library(arules)
#从rattle包中读入数据
dvdtr
  • 2
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: Apriori算法是一种常用的关联规则挖掘算法,用于发现数据集中项与项之间的频繁关联关系。 Apriori算法实现可以使用Python编程语言来完成。以下是一个简单的示例: 首先,需要准备一个数据集。可以用一个列表来表示数据集,每个元素都是一个集合,表示一个事务,其中每个项是数据集中的一个元素。例如,下面是一个简单的数据集: dataset = [ {'牛奶', '尿布', '啤酒'}, {'尿布', '洋葱', '洗发水', '啤酒'}, {'牛奶', '尿布', '洋葱', '啤酒'}, {'牛奶', '洋葱', '啤酒'}, {'尿布', '洗发水', '啤酒'}, ] 然后,可以使用pyfpgrowth库中的函数来实现Apriori算法。该库提供了简单且高效的算法实现。可以使用以下代码来执行算法: from pyfpgrowth import find_frequent_patterns from pyfpgrowth import generate_association_rules # 设定最小支持度 min_support = 2 # 寻找频繁项集 frequent_patterns = find_frequent_patterns(dataset, min_support) # 根据频繁项集生成关联规则 association_rules = generate_association_rules(frequent_patterns, 0.7) 这里通过设置min_support参数来控制支持度的最小值,可以根据需求进行调整。生成的关联规则可以通过设置confidence_threshold参数来控制置信度的最小值。 最后,可以打印出频繁项集和关联规则的结果: print("频繁项集:") for itemset, support in frequent_patterns.items(): print(itemset, ":", support) print("关联规则:") for antecedent, consequent, confidence in association_rules: print(list(antecedent), "->", list(consequent), ":", confidence) 这样就完成了Apriori关联规则算法的Python实现。 总之,Apriori关联规则算法是一种常用的数据挖掘算法,可以使用Python的pyfpgrowth库来实现。通过设置支持度和置信度的阈值,可以发现频繁项集和关联规则。 ### 回答2: Apriori 关联规则算法是一种常用的数据挖掘算法,用于发现数据集中的频繁项集和关联规则。Python中有多种库可以实现Apriori算法,例如mlxtend和apyori库。 mlxtend是一个常用的机器学习库,它提供了一个apriori函数,可以用于实现Apriori算法。在使用mlxtend库时,需要先将数据集转化为适合于算法的形式,一般为列表的列表。然后,通过调用apriori函数,并设置支持度阈值,即可得到频繁项集。 apyori是另一个常用的库,用于实现Apriori算法。它提供了一个apriori函数,可以直接对数据集进行操作。在使用apyori库时,可以通过设置支持度和置信度阈值来筛选频繁项集和关联规则。 下面是一个示例代码,展示了如何使用mlxtend和apyori库进行Apriori算法实现: 使用mlxtend库: ``` from mlxtend.frequent_patterns import apriori #构建频繁项集 frequent_itemsets = apriori(df, min_support=0.1, use_colnames=True) #基于频繁项集构建关联规则 rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.5) ``` 使用apyori库: ``` from apyori import apriori #将数据集转化为列表的列表 transactions = [['牛奶', '洋葱', '肉豆蔻', '芸豆', '鸡蛋', '酸奶'], ['鸡蛋', '洋葱', '芸豆', '肉豆蔻', '酸奶'], ['牛奶', '肉豆蔻', '芸豆', '酸奶'], ['牛奶', '芸豆', '鸡蛋', '酸奶'], ['牛奶', '洋葱', '肉豆蔻', '芸豆', '鸡蛋']] #设置支持度和置信度阈值 min_support = 0.3 min_confidence = 0.6 #运行Apriori算法并输出结果 results = list(apriori(transactions, min_support=min_support, min_confidence=min_confidence)) ``` 通过以上示例代码,我们可以很方便地使用Python实现Apriori关联规则算法。 ### 回答3: Apriori算法是一种常用的关联规则挖掘算法,用于发现数据集中项之间的频繁关联关系。它的核心思想是通过候选项集的递归产生和剪枝来寻找频繁项集。 Python提供了多种实现Apriori算法的库,其中最常用的是mlxtend库。 使用mlxtend库实现Apriori算法需要先安装该库,可以通过pip命令进行安装。 安装完毕后,可以导入mlxtend库的apriori模块。使用该模块的apriori函数可以传入数据集和最小支持度参数来进行频繁项集的挖掘和生成关联规则。 具体实现步骤如下: 1. 导入mlxtend库的apriori模块:`from mlxtend.frequent_patterns import apriori` 2. 加载数据集,可以将数据集存储为一个列表,每个元素是一条交易记录,每条交易记录是一个集合,表示该交易包含的项。 3. 调用apriori函数,传入数据集和最小支持度参数。最小支持度参数表示频繁项集在整个数据集中出现的最小比例。 具体代码如下: ```python from mlxtend.frequent_patterns import apriori # 加载数据集 dataset = [['A', 'B', 'C'], ['B', 'D'], ['C', 'D', 'E'], ['A', 'C', 'D', 'E']] # 挖掘频繁项集 frequent_itemsets = apriori(dataset, min_support=0.5) # 打印频繁项集 print(frequent_itemsets) ``` 以上代码中,待挖掘的数据集包含4条交易记录,每个交易记录是一个集合。最小支持度参数`min_support`设置为0.5,表示频繁项集在所有交易记录中至少出现一半以上。 运行上述代码,可以得到频繁项集的输出结果。 通过上述代码,我们可以在Python中使用mlxtend库的apriori函数来实现Apriori关联规则算法。使用这个函数可以方便地进行频繁项集的挖掘和生成关联规则,从而帮助我们发现数据集中的有意义的关联关系。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值