数据挖掘相关

什么是规则?就是一个条件和一个结果的和:If condition then result。实际中有用的往往是结果中只有一个元素的情况。

关联规则(association rule)挖掘技术用于发现数据库中属性之间的有趣联系。和传统的产生式规则不同,关联规则可以有一个或多个输出,同时一个规则的输出属性可以是另一个规则的输入属性。关联规则分析有时也叫购物篮分析,是因为它可以找寻出潜在的令人感兴趣的所有的产品组合。由此,有限数目的属性可能生成上百条规则。

关联规则的置信度支持度兴趣度

元组

出现频率

A

45%

B

42.5%

C

40%

A和B

25%

A和C

20%

B和C

15%

A和B和C

5%


支持度:就是一个元组在整个数据库中出现的概率。如上面的例子中 S(A)=0.45

置信度:它是针对规则而言的。对于一般的规则,它的 可信度=p(condition and result)/p(condition)。例如有如下规则: If B and C then A。则它的置信度是: p(B and C and A)/p(B and C)=5%/15%=0.33

提高率(或者叫兴趣度):对于上面的一个规则,我们可以发现,当我们从从数据库中直接取A的时候,概率是45%;可在我们的规则中,取到A的概率却只有33.3%。显然,这种情况是我们不愿意见到的,我们应该略去这样的一些规则。所以我们引入了兴趣度的概念,具体的公式如下: 兴趣度=p(condition and result)/p(condition)*p(result)。当兴趣度大于1的时候,这条规则就是比较好的;当兴趣度小于1的时候,这条规则就是没有很大意义的。兴趣度越大,规则的实际意义就越好。

克服实际应用中数据量暴大的问题。当数据量增大时,要考虑的元素组就增长的很快了。

关联规则的优缺点:
优点:
·它可以产生清晰有用的结果。
·它支持间接数据挖掘。
·可以处理变长的数据。
·它的计算的消耗量是可以预见的。

缺点:
·当问题变大时,计算量增长得厉害。
·难以决定正确的数据。
·容易忽略稀有的数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值