数据挖掘笔记(4)——关联规则

基本概念

        事务:每一个记录

        项:记录中的每一个

        项集:项的组合构成一个项集

        支持度:同时出现的概率,P(AB)

        置信度: P(B | A)

        发现有意义的规则: 最小支持度和最小置信度

挖掘步骤

      1.数据预处理

      2.发现频繁项目集: 使用最小支持度进行筛选

      3.由频繁项目生成关联规则: 满足最小置信度

      4.对关联规则分析

降低计算量

        减少候选项集: 频繁项集的子集也是频繁的 ,非频繁集的超集也是非频繁的

        构造hash树,不是和每个事务对比

        频繁模式增长 FB树 

基本算法

        1. 多循环方式的挖掘算法

        2. 增量式更新算法

        3. 并行发现算法

        4. 多层关联规则: 把小概念项的概念进行提升,如蒙牛提升为牛奶

        5. 量化属性关联规则: 转换为布尔类型

        6. 基于约束的关联规则

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大型超市“购物蓝”问题 作为超市的经理,经常关心的问题是顾客的购物习惯。他们想知道:“什么商品组合或合,顾客多半会在一次购物时同时购买?”。现在假设你是超市的市场分析员,已经掌握了该超市近一个星期的所有顾客购买物品的清单和相应商品的价格,需要你给超市经理一个合理的“购物蓝”分析报告,并提供一个促销计划的初步方案。 具体的说,需要完成如下任务: 1、附件1中的表格数据显示了该超市在一个星期内的1024个顾客对999种商品的购买记录,表格中每一行代表一个顾客的购买记录,数字代表了其购买商品的超市内部编号。试建立一种数学模型,该模型能定量表达超市中多种商品间的关联关系的密切程。 2、根据你在问题1中建立的模型,寻找一种快速有效的方法能从附件1中的购买记录中分析出那些商品是最频繁被同时购买的。超市经理希望得到尽可能多的商品被频繁同时购买的信息,所以你找到的最频繁被同时购买的商品数量越多越好。 例如:如果商品1、商品2、商品3在1024个购物记录中同时出现了200次,则可以认为这三个商品同时频繁出现了200次,商品数量是3。 3、附件2给出了这999种商品对应的利润,试根据前面建立的模型,给出一种初步的促销方案,使超市的效益进一步增大。 4、给超市经理写一个报告,分析超市的现状并对将来超市购物蓝信息的收策略提出建议。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值