机器学习(无监督学习)关联规则Apriori算法原理与python实现

本文详细介绍了无监督学习中的关联规则分析,重点讲解Apriori算法的原理,包括频繁项集的评估标准如支持度、置信度和提升度,并通过一个实际案例展示了如何在Python中实现Apriori算法,挖掘数据中的强关联规则。通过设置支持度、置信度和提升度阈值,找到有价值的关联产品组合,如洁面乳和补水霜的双侧关联,以提高销售收益。
摘要由CSDN通过智能技术生成

一、关联规则原理:

1、概述:

关联规则算法是在一堆数据集中寻找数据之间的某种关联,通过该算法我们可以对数据集做关联分析——在大规模的数据中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集、关联规则。

  • 频繁项集:经常出现在一块的物品的集合。
  • 关联规则:暗示两种物品之间可能存在很强的关系。

关联分析典型的例子,沃尔玛超市啤酒于尿不湿的关联分析。例如:购物篮数据

订单编号 购买商品集合
001 羽毛球拍,羽毛球
002 羽毛球,球网,纸巾,矿泉水
003 羽毛球拍,球网,纸巾,红牛
004 羽毛球,羽毛球拍,球网,纸巾
005 羽毛球,羽毛球拍,球网,红牛

名词定义:

  • 事物:每一个订单被称为一个事物,上表包含5个事物;
  • 项:订单中的每一个物品被称为一个项;
  • 项集:包含0个或多个项的集合被称为项集,如:{羽毛球拍,羽毛球};
  • k-项集:包含k个项的项集被称为K项集,如{羽毛球拍,羽毛球}称为2-项集;
  • 前件与后件:对于规则{羽毛球拍}-->{羽毛球},{羽毛球拍}叫做前件,{羽毛球}叫做后件。

2、频繁项集的评估标准:

频繁项集:经常出现在一块的物品的集合,当数据量非常大的时候,我们不可能通过人工去算,所以催生了关联规则的算法,如:Apriori、prefixSpan、CBA等。有了计算方法,那么常常出现在一块多少次的物品集合才算频繁项集,则还需要一个评估频繁项集的标准。评估标准有支持度,置信度、和提升度等,需要自定义一个阈值来衡量判别。

  • 4
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值