数据挖掘之关联规则算法



公众号后台回复“图书“,了解更多号主新书内容
     作者:林骥
     来源:  林骥

曾经有一段时间,「数据挖掘」这个概念很火,其中「啤酒与尿布」的故事广为流传。

据说,沃尔玛为了准确了解客户的购买习惯,对其客户的购物行为进行购物篮分析,想知道客户经常一起购买的商品有哪些。

在沃尔玛的数据仓库里,有非常详细的原始订单数据,数据分析师利用算法,对这些原始订单数据进行分析和挖掘,发现「跟尿布一起购买最多的商品竟然是啤酒」。

经过大量的调查和分析,发现客户的一种行为模式:一些年轻的父亲下班后,经常要到超市去买尿布,而他们中有 30%~40% 的人,同时也为自己买一些啤酒。

后来「大数据」和「人工智能」的概念兴起,我感觉说「数据挖掘」的人已经不多了。但是,这些不同概念的背后,一些算法的原理其实是相同的。

比如说,关联规则算法,就是从一件事情的发生,来推测另外一件事情发生的概率,从而帮助我们更好地了解和掌握事物的发展规律。

关联规则算法的应用非常广泛,例如:交叉销售、商品摆放、流失分析、价格分析、习惯分析等。

应用关联规则算法时,通常会涉及几个重要的参数,分别是:项目集、支持度、置信度、重要性

举一个简单的例子,假设有 3 笔订单,对应的产品明细如下:

订单号产品明细
10001啤酒,尿布
10002啤酒,尿布
10003尿布

1. 项目集

每个项目集都有一个大小,该大小表示项目集中包含的项的数目。

比如说,在上面的例子中,包含 3 个项目集,分别是:{啤酒}、{尿布}、{啤酒,尿布}。项目集 {啤酒} 的大小是 1,项目集 {啤酒,尿布} 的大小是 2。

频繁项目集,就是在数据集中出现频率高的那些项目集。

2. 支持度

支持度表示一个项目集出现的次数。

比如说,项目集 {啤酒,尿布} 的支持度,是同时包含啤酒和尿布的订单总个数是 2 个。

在处理关联规则之前,先指定一个最小的支持度,用于对项目集进行限制,表示用户只对某些项目集感兴趣。

3. 置信度

置信度是一个表示概率的属性。

比如说,在上面的例子中,对于购买啤酒的客户,同时购买尿布的置信度是 100%。

在处理关联规则之前,先指定一个最小的置信度,用于对规则进行限制,表示用户只对某些规则感兴趣,这些规则要大于或等于最小的概率。

4. 重要性

实际挖掘出来的一些关联规则,并非都是有用的,有时候甚至是有一定的误导性,所以重要性这个指标就显得非常重要。

关联规则的重要性,是指在已知规则左侧的情况下,求规则右侧的对数可能性。

如果重要性分数为 0,那么表示没有关联;正的重要性分数表示正相关;负的重要性分数表示负相关。

最后的话

在数据分析中,面对不同的场景,运用适当的思维、算法或模型,可以帮助你更好地观察事物和看待世界,形成正确的认知,从而做出科学的决策。

这篇文章介绍的关联规则算法,相对比较专业,你不需要死记硬背,只需要有个大致的了解。

当你以后遇到类似的场景时,如果能够想起来有这么一种算法,然后就可以借助相关的软件,把它应用到实际业务中去,想方设法为业务赋能,从而创造更大的价值。

◆ ◆ ◆  ◆ ◆
麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:


数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
猜你喜欢
● 卧槽!原来爬取B站弹幕这么简单● 厉害了!麟哥新书登顶京东销量排行榜!● 笑死人不偿命的知乎沙雕问题排行榜
● 用Python扒出B站那些“惊为天人”的阿婆主!● 你相信逛B站也能学编程吗
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值