Matlab关键规则挖掘尿片啤酒,数据挖掘:“啤酒+尿布”的关联规则是怎么来的?...

关联,其实很简单,就是几个东西或者事情

是经常同时呈现

的,“啤酒+尿布”就是十分

典型的两个关联商品。

4789.html 假定

两项或多项属性之间存在关联,那么其中一项的属性值就能够

依据

其他属性值中止

预测。简单地来说,关联规则能够

用这样的方式来表示:A→B,其中A被称为前提或者左部(LHS),而B被称为结果或者右部(RHS)。假定

我们要描画

关于尿布和啤酒的关联规则(买尿布的人也会买啤酒),那么我们能够

这样表示:买尿布→买啤酒。 关联算法的两个概念 在关联算法中很重要的一个概念是支持度(Support),也就是数据集中包含某几个特定项的概率。 比如

在1000次的商品买卖

中同时呈现

了啤酒和尿布的次数是50次,那么此关联的支持度为5%。 和关联算法很相关的另一个概念是置信度(Confidence),也就是在数据集中曾经

呈现

A时,B发作

的概率,置信度的计算公式是 :A与B同时呈现

的概率/A呈现

的概率。 数据关联是数据库中存在的一类重要的可被发现的学问

。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联等。关联剖析

的目的是找出数据库中躲藏

的关联网。有时并不知道

数据库中数据的关联函数,或者即便

知道

也是不肯定

的,因而

关联剖析

生成的规则带有置信度。 关联规则挖掘

发现大量数据中项集之间有趣的关联或相关联络

。它在数据挖掘中是一个重要的课题,最近几年已被业界所普遍

研讨

。 关联规则挖掘

的一个典型例子是购物篮剖析

。关联规则研讨

有助于发现买卖

数据库中不同商品(项)之间的联络

,找出顾客置办

行为方式

,如置办

了某一商品对置办

其他商品的影响。剖析

结果能够

应用于商品货架规划

、货存布置

以及依据

置办

方式

对用户中止

分类。 关联规则的发现过程可分为如下两步: 第一步是迭代辨认

一切

的频繁项目集(Frequent Itemsets),央求

频繁项目集的支持度不低于用户设定的最低值; 第二步是从频繁项目集中结构

置信度不低于用户设定的最低值的规则,产生关联规则。辨认

或发现一切

频繁项目集是关联规则发现算法的中心

,也是计算量最大的部分

。 支持度和置信度两个阈值是描画

关联规则的两个最重要的概念。一项目组呈现

的频率称为支持度,反映关联规则在数据库中的重要性。而置信度权衡

关联规则的可信水平

。假定

某条规则同时满足最小支持度(min-support)和最小置信度(min-confidence),则称它为强关联规则。 关联规则数据挖掘

阶段 第一阶段必需

从原始资料

汇合

中,找出一切

高频项目组(Large Itemsets)。高频的意义

是指某一项目组呈现

的频率相关于

一切

记载

而言,必需

抵达

某一水平

。以一个包含A与B两个项目的2-itemset为例,我们能够

求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),普通

表示为Large k或Frequent k。算法并从Large k的项目组中再试图产生长度超越

k的项目集Large k+1,直到无法再找到更长的高频项目组为止。 关联规则挖掘

的第二阶段是要产生关联规则。从高频项目组产生关联规则,是应用

前一步骤的高频k-项目组来产生规则,在最小可信度(Minimum Confidence)的条件门槛下,若一规则所求得的可信度满足最小可信度,则称此规则为关联规则。 例如:经由高频k-项目组{A,B}所产生的规则,若其可信度大于等于最小可信度,则称{A,B}为关联规则。 就“啤酒+尿布”这个案例而言,运用

关联规则挖掘

技术,对买卖

资料

库中的记载

中止

资料

挖掘

,第一

必需求

设定最小支持度与最小可信度两个门槛值,在此假定

最小支持度min-support=5% 且最小可信度min-confidence=65%。因而

契合

需求的关联规则将必需

同时满足以上两个条件。若经过挖掘

所找到的关联规则 {尿布,啤酒}满足下列条件,将可接受

{尿布,啤酒} 的关联规则。用公式能够

描画

为: Support(尿布,啤酒)≥5% and Confidence(尿布,啤酒)≥65%。 其中,Support(尿布,啤酒)≥5%于此应用范例中的意义为:在一切

的买卖

记载

资料

中,至少有5%的买卖

呈现尿布与啤酒这两项商品被同时置办

的买卖

行为。Confidence(尿布,啤酒)≥65%于此应用范例中的意义为:在一切

包含尿布的买卖

记载

资料

中,至少有65%的买卖

会同时置办

啤酒。 因而

,今后若有某消费者呈现

置办

尿布的行为,我们将可举荐

该消费者同时置办

啤酒。这个商品举荐

的行为则是依据

{尿布,啤酒}关联规则而定,由于

就过去的买卖

记载

而言,支持了“大部分

置办

尿布的买卖

,会同时置办

啤酒”的消费行为。 从上面的引见

还能够

看出,关联规则挖掘

通常比较

适用于记载

中的指标取离散值的状况

。 假定

原始数据库中的指标值是取连续的数据,则在关联规则挖掘

之前应该中止

恰当

的数据离散化(理论

上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘

前的重要环节,离散化的过程能否

合理将直接影响关联规则的挖掘

结果。 作者:通策信息首席运营官 谭磊 (原载于《天下网商·经理人》八月刊)

本文采用「CC BY-SA 4.0 CN」协议转载学习交流,内容版权归原作者一切

,如涉作品、版权和其他问题请联络

「我们」处置

赞助商推荐:数极客是新一代用户行为分析与数据智能平台,支持用户数据分析、运营数据分析、留存分析、路径分析、漏斗分析、用户画像、SEM数据分析等16种分析模型的数据分析产品,支持网站统计、网站分析、APP统计、APP分析等分析工具,以及会员营销系统和A/B测试工具等数据智能应用,支持SAAS和私有化部署,提升用户留存和转化率,实现数据驱动增长!

【独家稿件及免责声明】本站原创文章如需转载请联系我们,未经书面许可禁止转载,本站转载文章著作权归原作者所有,如有侵权请联系:。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值