推荐系统:关联规则(1)

说到推荐系统,就不能不说 关联规则。基于关联规则的推荐,是入门级的推荐技术实现,也是目前应用最广泛的一种推荐形式。

就拿刚上线的“ 蚂蚁”来说吧,打开《 引爆流行》的页面,稍微滚动两下鼠标,你就可以看到这个了——“喜欢此宝贝的会员还喜欢”。豆瓣上也有类似的形式,还看《 引爆流行》,豆瓣的是——“喜欢引爆流行的人也喜欢”。是不是很像?但别被形式迷惑了,这两个用的是完全不同的技术实现。豆瓣的之前我说过了,他是 Item-Based 方法;蚂蚁的这个应该就是关联规则方法了。当然我是猜的,不过也不是乱猜。有兴趣的可以刷刷上面那两个《引爆流行》的页面,看一下两个推荐区域的内容会有什么不同。

关联规则起源于数据挖掘领域,人们用它来发现大量数据中项集之间(有趣/有用)的关联。它本身是数据挖掘领域中一个重要的研究课题,近些年来更是由于被业界广泛应用而倍受重视。 Rakesh Agrawal 是关联规则领域的大牛,他于 1993 年发表的一篇 paper,《 Mining Association Rules between Sets of Items in Large Databases》,是被引用最多的一篇大作。不过让 google fans 们失望的是,他目前就职于 microsoft 的搜索实验室!^_^

关联规则的最典型例子就是购物篮分析。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很多的。这个故事听起来是不是很酷?没错,这就是技术的力量!

但是,和任何其他经典的故事一样——这事儿听起来带劲儿,做起来很难!真正做过关联规则挖掘的人,一定都有这样的体会:想从浩瀚的记录集里,挖掘一条带劲儿的关联规则出来,简直太难了。(什么,你问有多难?请参照朱广沪~~~)

对于挖掘得到的关联规则,都会制定一些指标来衡量它们的有效程度,最经典的包括,支持度和置信度。简单来讲,
  1. 支持度是指,商品A、商品B在全部销售订单中所占的比例。
  2. 置信度是指,购买商品A并且同时购买了商品B的订单,在所有包含商品A的订单中所占的比例。

当然,这里的商品和订单是个泛化的概念,具体指代是的什么,就得具体问题具体分析了。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值