数据挖掘之关联规则

在数据挖掘的知识模式中,关联规则模式是比较重要的一种。属于描述性模式,发现关联规则的算法属于无监督学习的方法。

关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。

一般用4个参数来描述关联规则的属性:

1.可信度(子集)

可信度是指出现了物品集A的事务T中,物品集B也同时出现的概率有多大。比如:如果一个顾客购买了铁锤,那么他也购买铁钉的可能性有多大呢?可信度:购买铁锤的顾客中有70%的人购买了铁钉,所以可信度是70%。

2.支持度(交集)

设W中s%的事务同时支持物品集A和B,S%就是关联规则a->b的支持度。描述了A和B这两个物品集的并集C在所有的事务中出现的概率有多大。例子:若一天中1000个顾客到商场购买物品,其中100个顾客同时购买了铁锤和铁钉,那么上述的关联规则的支持度就是10%。

3.期望可信度(expected confidence)

期望可信度描述了在没有任何条件影响时,物品集B在所有事务中出现的概率有多大。例子:若某天共1000个顾客到商场购买物品,其中200人购买了铁钉,则上述关联规则的期望可信度就是20%。

4.作用度(lift)

作用度时可信度和期望可信度的比值。描述物品集A的出现对物品集B的出现有多大的影响。反映了在加入“物品集A出现”的这个条件后,物品集B的出现概率发生了多大的变化。例子中,70%/20%=3.5

可信度是对关联规则准确度的衡量,支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。

作用度描述了物品集A对物品集B的影响力的大小。作用度越大说明物品集B受物品集A的影响越大。一般情况下,游泳的关联规则的作用度都应该大于1,只有关联规则的可信度大于期望可信度,才能说明A的出现对于B的出现有促进作用,也说明了他们之间某种程度的相关性,如果作用度不大于1,则此关联规则也就没有意义了。

事实上,人们一般只对满足一定支持度和可信度的关联规则感兴趣。因此,为了发现有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度。前者规定了关联规则必须满足的最小支持度,后者规定了关联规则必须慢则的最小可信度。一般称满足一定要求的规则为强规则。

关联规则的挖掘中要注意以下几点:

1.充分理解数据。

2.明确目标。

3.数据准备工作要好,能否做好数据准备又取决于前两点。数据准备直接影响到问题的复杂度和目标的实现。

4.选取恰当的最小支持度和最小可信度。

5.很好的理解关联规则。数据挖掘工具能够发现满足条件的关联规则,但是它不能判定关联规则的实际意义。对关联规则的理解需要熟悉业务背景,丰富的业务经验对数据有足够的理解。在发现的关联规则中,可能有两个主观上认为没有多大关系的物品,他们的关联规则支持度和可信度却很高,需要根据业务知识、经验,从各个角度判断这是一个偶然现象或者有其内在的合理性;反之,可能有主观上认为关系密切的物品,结果却显示它们之间相关性不强。只有很好的理解关联规则,才能去其糟粕,取其精华,充分发挥关联规则的价值。

发现关联规则的三个步骤:

1.连接数据,做数据准备;

2.给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;

3.可视化显示,理解,评估关联规则;(如何评估)

应用现状:目前金融行业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用信息,譬如对这些数据进行分析,发现其数据模式和特征,然后可能发现某个客户、消费群体或者组织的金融和商业兴趣,并可观察金融市场的变化趋势。


现有内容是什么?如何做到的?有什么意义?

还有哪些可以增加的分析需求?可行性?难度?为什么没有做?

https://www.cnblogs.com/to-creat/p/6566253.html



  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值