颜色数据输入必须为矩阵_想要以数据挖掘为专业,那么必须得知道什么是关联分析...

很多人经常在相关分析和关联分析之间犯迷糊,实际上两者之间的差别很明显,相关分析是分析数据列之间同增同减的关系,而关联分析反映的是一个数据行内部的各个元素之间同时出现或者“你在、我就在”的关系。要讲关联分析,就不得不提到数据分析中“因果关系”的弱化这一趋势。

因果关系的弱化

在数据分析领域,我们都自觉不自觉地在追求和挖掘数据之间的“因果关系”,销售投入的增长是否会引起销售回款的增长,人口的流入是否一定会带来房价的上涨。随着数据分析技术的不断改进以及分析经验的不断积累,人们开始认识到,事物之间未必完全是“有因必有果、有果必有因”的关系,很多事件之间呈现一种比较松散的、逻辑性并非很强的“关联”关系,这种关联关系在数据挖掘而非传统统计的案例中经常出现。

要分析数据之间的“关联”关系,我们要应用apriori算法,目前各种主流的数据分析和挖掘软件,都采用了这个算法。

关联分析的指标

在数据中间挖掘“同时存在”或者“你在、我就在”的技术,就是关联分析。下面看几个重要的关联分析算法的基本概念。

支持度

支持度就是数据中的相应的元素同时出现的概率,置信度就是统计中的条件概率,不过条件概率到了关联分析中有了“前项”和“后项”这两个概念,例如A出现以后B出现的概率,称A为前项,B为后项,那么A到B的置信度就是:

197ab70ac3b300c36803c94a7dfc8aa3.png

反过来,B到A的置信度为:

5aa6ebe2ae4f2f50f28c4a1c1df0d83a.png

提升度

提升度的定义,以X表示前项,Y表示后项,X到Y的提升度就是:

52e40c3ce9e469880cd4a579c1eaa98a.png

仅计算支持度和置信度是不够的,还要看支持度指标,其规则如下:

1fd5dbc7e44f261d1564e32d3f3ee2af.png

什么样的数据适合做关联分析

商超数据

商场和超市数据是关联分析最先被应用的地方,自然也是关联规则应用的主要场所。商超数据做关联分析的主要目的就是用来做捆绑销售,这种捆绑销售主要体现在两个方面:

❑ 实体店中的捆绑:将相应产品的货架摆放在一起或者放在比较相近的位置。

❑ 网店中的搭售:根据客户消费中的关联性,进行相关礼包的组合或者销售的推荐。

金融数据

金融领域也是关联分析应用的重要场合,两个比较典型的应用是金融欺诈和关键指标分析

在金融数据的关联分析中,有两种关联关系:一是同步的数据关联,二是有一定时间差距的关联,例如某个股票的指标出现某种特征时,两个交易日后股票涨停板,那么,这两种关联关系我们都需要考虑。

生产质量数据

生产质量数据也是关联分析应用的重要场所,其实做法跟金融行业非常相似,我们主要关注产品次品率,也是同样将产品次品率高的批次标识出来,与相应的生产数据进行关联分析,包括产品批次、供货批次、班次、工人师傅等级、车间、电压等数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值