【炼数成金 RapidMiner 三 】关联分析、关联规则

关联分析


1)    关联模型的部分局限有哪些?
       在关联模型中一般需要寻找频繁项集,这就有可能产生大量的候选集,需要重复扫描数据库并计算候选集中每个候选项集的支持度,无法对稀有的信息进行分析,开销大。
    
2)    什么是关联系数? 如何解读?  

       相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。

      相关系数ρ取值在-1到1之间,ρ = 0时,称X,Y不相关|ρ| = 1时,称X,Y完全相关,此时,X,Y之间具有线性函数关系; |ρ| < 1时,X的变动引起Y的部分变动,ρ的绝对值越大,X的变动引起Y的变动就越大, | ρ| > 0.8时称为高度相关,当,即 | ρ| < 0.3时,称为低度相关,其他为中度相关。

      但是相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。

3)    正关联和负关联之间的区别是什么? 如果两个属性的值以基本相同的速率下降,是否为负关联? 为什么?
       正关联和负关联基本相似于正比与反比,只是关系不是线性的,是大致趋势相似。正相关就是两个变量一个随另一个增加而增加,负相关是两个变量一个随另一个增加而减少。如果两个属性的值以基本相同的速率下降,不是负关联,他们变化趋势相同,属于正关联。

4)    如何衡量关联强度? 关联强度介于什么范围之间?
       关联强度是两个研究对象之间的相似程度,一般用它们共同被引的次数来表征。关联强度越大,相似度越高,"距离"也越近。常用的相似度测算方法--Person系数适用呈现正态分布的数据。描述两个变量之间线性相关强度的参数r取值范围为[-1,1]。


5)    有人建议热燃油消费设备的数量是一个可能相关并可添加到本章示例数据集中的属性。 您还可以想到其他属性吗? 它们为什么可能相关? 您认为您建议的属性可能与数据集中的哪些其他属性之间存在关联? 如果知道它们之间存在关联,会有哪些帮助?

       除了示例中的属性,认为家庭成员平均室内的时间也与热燃油需求有一定的关系。家庭成员平均室内时间会直接影响到保持室内温度的时间和对热燃油的消耗,如果家庭成员在室内的平均时间越长则热燃油的需求越大,这样就可以更加精确地定位Sarah所在公司的投放目标。


 

关联规则


1)    什么是关联规则? 它们有哪些用处?
    关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品X的出现对物品Y的出现有多大的影响。可以用在购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等各个方面。
 
2)    在关联规则中计算的两个主要指标是什么,如何计算?
    (1)规则X->Y在交易数据集D中的支持度是对关联规则重要性的衡量,反映关联是否是普遍存在的规律,说明这条规则在所有交易中有多大的代表性。即在所有交易中X与Y同时出现的频率记为:support(X->Y)。 计算方法:交易数据集中同时包含X和Y的交易数与所有交易数之比:support(X->Y) = P(X∪Y) = |{T: X ∪Y∈T,T∈D}|/|D|×100%(其中|D|是交易数据集D中的所有交易数)

    (2)规则X、Y在交易数据集D中的置信度是对关联规则准确度的衡量。度量关联规则的强度。即在所有出现了X的活动中出现Y的频率,即规则X、Y的必然性有多大。记为confidence(X->Y)。

    计算方法:包含X和Y的交易数与包含X的交易数之比:confidence(X->Y) = P(Y∣X) = |{T: X∪Y∈T,T∈D}|/|{T:X∈T,T∈D}|×100%

    同时满足最小置信度阈值和最小支持度阈值的关联规则为强关联规则。


3)    数据集的属性必须是什么数据类型,才能在 RapidMiner 中使用频率模式操作符?
        必须是二值类型的数据。    

4)    如何解读规则结果? 在本章的示例中,最强的规则是什么? 我们是如何知道的?

       

        可以从结果集中读取可能选在关联的一对元素之间的支持度和置信度,在本章中最高关联强度是Religious->Rule,支持度为0.239,置信度为0.796。

转载于:https://www.cnblogs.com/shenhui/p/3748730.html

8.1 理解关联规则分析 下面通过餐饮企业的一个实际情景引出关联规则的概念。客户在餐厅点餐时,面对菜单大量的菜品信息,往往无法迅速找到满意的菜品,既增加了点菜的时间,也降低了客户的就餐体验。实际上,菜品的合理搭配是有规律可循的:顾客的饮食习惯、菜品的荤素和口味,有些菜品之间是相互关联的,而有些菜品之间是对立或竞争关系(负关联),这些规律都隐藏在大量的历史菜单数据,如果能够通过数据挖掘发现客户点餐的规则,就可以快速识别客户的口味,当他下了某个菜品的订单时推荐相关联的菜品,引导客户消费,提高顾客的就餐体验和餐饮企业的业绩水平。 关联规则分析也成为购物篮分析,最早是为了发现超市销售数据库不同的商品之间的关联关系。例如一个超市的经理想要更多地了解顾客的购物习惯,比如“哪组商品可能会在一次购物同时购买?”或者“某顾客购买了个人电脑,那该顾客个月后购买数码相机的概率有多大?”他可能会发现如果购买了面包的顾客同时非常有可能会购买牛奶,这就导出了一条关联规则“面包=>牛奶”,其面包称为规则的前项,而牛奶称为后项。通过对面包降低售价进行促销,而适当提高牛奶的售价,关联销售出的牛奶就有可能增加超市整体的利润。 关联规则分析是数据挖掘最活跃的研究方法之一,目的是在一个数据集找出各项之间的关联关系,而这种关系并没有在数据直接表示出来。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值