机器学习之关联规则

关联规则的定义:

clipboard.png

支持度和置信度的定义:

clipboard.png

clipboard.png

支持度和置信度的作用:

clipboard.png

Frequent Itemsets and Strong Rules(频繁集和强规则)

clipboard.png

clipboard.png

关联规则问题:
clipboard.png

Itemset Generation

传统的遍历所有节点的方法,势必会产生大量无用项。
clipboard.png

The Apriori Method

Apriori算法的核心思想:

  • 频繁集的子集一定是频繁的

  • 非频繁集的超集一定是非频繁的

剪枝处理

clipboard.png

过程描述

  1. 给定一组特定大小的项集

  2. 扫描数据库找出其中的频繁项集

  3. 使用找到的频繁项集生成比原来的频繁项集多一个元素的候选项集。返回上一步继续执行。

Attention

  • 需要多次扫描数据库

  • 有效的索引方式(Hash,BitMap)能增强检索速度。

伪代码描述

/*
 * C(k):长度为k的候选项集
 * L(k):长度为k的频繁项集
*/
L(1) = {frequent items}
for(k=1;L(k)!=NULL;k++)
    C(k+1) <- candidate(L(k))
    for each transaction t
        Q = {c|c∈C(k+1)∧c∈t}
        count[c] += 1 ,∀c∈Q
    end for
    L(k+1) = {c|c∈C(k+1)}∧count[c]/N≥σ}
end for
return all the L

参考资料:
http://www.xuetangx.com/cours...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值