啤酒与尿布?挖掘商品之间的关联性分析(1):机器学习之Apriori算法

从这个贸易战看:强权即是真理,没有所谓的自由贸易和平等。中国之大已容不下一个安静的键盘。不过是又一次鸦片战争。除了愤怒还是愤怒,除了一心想为崛起而澎湃还是一心想为崛起而澎湃。中华文明三四千年的历史都是世界顶级,美国人区区100多年第一就想再占100年这不是无知么中国人有13亿人,是美国人的4倍还要多,4个抵1个也是必然会超过美国
2019年5月29日 IEEE宣布禁止任何受华为资助的教授或学生参与IEEE审稿。听到这个消息我是愤怒的,说好的科学无国界呢?
梳理下这个过程:
2018.12.1,华为CFO(任正非之女)被美国下令逮捕
2018.12.1 对芯片重大贡献的华人张首晟在美国身亡,就在2年前获得中国国家科学技术奖(中国科技最高奖,最高领导人亲自颁奖,奖金200万美金)
2019年5月 美国撕毁两国元首已经基本确定的协议,对中国征收25%关税。
2019年5月中旬 美国禁止全世界任何企业与华为接触或者提供设备,也禁止购买华为手机或通讯设备。理由:“国家安全”(距离美国棱镜门用思科通讯设备和Google监听全世界这个事件不过几年美国人就忘了自己干了什么事。)同时禁止欧洲其他国家使用华为提供的5G服务。
2019年5月中下旬,Microsoft,ARM,Google纷纷宣布停止和华为任何商业来往,同时Google禁止华为手机使用Google服务
2019年5月底, IEEE(世界上最大电子电气学术机构禁止任何受华为资助的教授参与审稿禁止其他高校或企业与中国的一些高校合作

1. 背景

一个广为流传的挖掘商品之间的关联性的故事就是“啤酒与尿布”这个故事。相传某超市通过分析顾客的账单,发现啤酒总是和尿布一起购买。通过分析,发现这是因为美国人喜欢喝啤酒,当买尿布的时候看到啤酒就顺便买了。于是就把啤酒与尿布总是放在一起卖。这样的有关联性的商品还有很多。如洋葱和土豆捆绑消费等等。将关联度高的商品放在一起促销或者捆绑消费可以提高营业额。同时电商平台也可以捆绑推荐提高成交量。而当商品非常多的时候,人工已经无法分析出众多商品的关联性。这个时候就需要计算机辅助人们找到哪些商品是经常被一起购买。目前有众多分析商品关联性的算法,Apriori算法就是其中一个师祖级算法。很多都是由Aporiori算法演化而来,如下一篇挖掘数据关联性的文章<挖掘数据关联性(2): FP-growth算法>。当然Aporiori还有其他的应用场景

2. 从本质看Apriori算法原理

2.1 算法要解决的问题是什么

要解决的问题:根据一堆账单数据,统计出哪些商品组合是高频率
举个例子:如给出下面这些数据,希望算法能分析出“啤酒+尿布”这个组合是高频率。也希望它能分析出“西红柿+鸡蛋”也是高频率:

{啤酒 鸡蛋 尿布 西红柿}
{香烟 尿布 瓜子 啤酒 }
{土豆 西红柿 洋葱 醋 鸡蛋}

2.2 算法思路

最简单的方式是遍历所有商品组合情况,然后统计各种组合出现的频率。设定一个值只要出现频率大于这个值,我们就认为是高频。但是,如果有上百种商品。那么组合的数量就非常巨大了。粗略用高中学的知识算下去单单100种商品就有10的30次方种情况。对于普通计算机来说超过10的6次方这个数量级就已经很慢了。所以直接遍历各种组合然后统计各种组合出现的频率肯定不行。那么人们开始想到我们能不能排除一些情况。把它的数量级降很多。这就是Apriori算法的初衷
100种商品的组合种类数量
那么问题来了怎么排除一些组合情况呢?这还是得回到我们需要解决什么问题上面来。我们要解决的是统计经常出现的那些组合。那么我们只需要排除那些肯定不是高频率的组合即可
那么什么样子的组合是肯定不是高频率?答:“含有很少见的那种组合的那个组合肯定不是高频率”。这句话有点拗口,我举个例子
现在我们知道“人参+尿布”是一种频率非常低的组合,那么“人参+尿布+燕窝”肯定也是频率非常低。为什么呢?要是“人参+尿布+燕窝”这个组合的频率高,肯定意味着“人参+尿布”肯定是高频率组合(因为“人参+尿布+燕窝”包含“人参+尿布”这种情况)。

于是我们可以确定筛除规则如果某个组合出现频率非常低,那么所有包含这种组合情况的组合出现频率也非常低。我们可以直接不统计这些组合出现频率举个例子:我们知道“人参+尿布”出现频率低,那么我就不会统计任何包含“人参+尿布”的组合了。也就是说“人参+尿布+燕窝”,“人参+尿布+土豆”,“人参+尿布+洋葱+花生”这些情况他们肯定是低频率,可以不用统计。

上面提到的那个筛除规则,就是Apriori的筛除规则。接下来就是要确定如何量化某个组合是否是高频率。

2.2.1 某组合出现频率量化指标

指标1: 包含某个组合的账单记录占总账单记录的比率
从直观上评价{啤酒+尿布}这个组合的频率就是看包含{啤酒+尿布}这

  • 7
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值