推荐引擎的终极挑战

如果你和家庭中的其他成员共用一个在线电影账号,那么很有可能你曾收到过一些你根本不感兴趣的电影推送。幸运的是,这一状况或许很快就能得到改变。


“如果一个人买了商品X,那么很有可能他会继续购买商品Y”,这句话已经成为互联网时代最为著名的典故之一。这句话的源头出自推荐引擎,推荐引擎就是根据你过去的购买记录来预测你未来的购买行为的一种系统,它根据和你拥有类似品味的人的购买记录来预测你的行为。

好的推荐系统能够将营业额提高几个百分点。这也是为什么网店和在线服务一定要拥有一个推荐系统的原因。

通过上面的解释,我们不难理解为什么人们对于提高推荐引擎的性能一直相当有兴趣。实际上,早在2006年,在线电影提供商,Netflix,就曾悬赏100万美金,任何人只要改进他们的推荐算法超过10%,就可以拿走这笔巨额奖金。三年之后,这笔奖金才被人拿走。

那么,对于推荐引擎来说,下一个突破点在哪里?

今天,在MIT的Amy Zhang和他的同事身上,我们找到了答案。他们指出在线服务,比如说在线电影服务,往往是几个人共享一个相同的账号。这就意味着和这个账号相关的行为是由几个不同的人共同完成的。包括对电影的喜好,对电影的评级这些都不是单纯的一个人的行为。

他们需要面对的问题是仅仅依靠研究和账号相关的评级信息能否判断出一个账号是不是一个共享账号。如果能够,又该怎样修改推荐算法。

他们选择了两个和电影推荐有关的数据库作为测试数据。第一个数据库包含171000名用户对20000部电影的超过400万条推荐信息。对于这个数据库中的600个账号,还知道它们是不是共享账号。这600账号中,有272个拥有两个使用者,14个拥有3个使用者,4个拥有4个使用者。

Zhang和他的同事使用的另一个数据库是Netflix将近500000用户对超过17000部电影的评级信息。

Zhang和他的同事的着手点在于用数学方法将一系列评级信息分成不同的几个部分。我们知道,一个共享账户的使用者有多人,这些人的行为模式是有差别的,如果我们能够通过聚类的方法将这个共享账户的评级信息分成和使用人数一致的几个部分,那么,很有可能分出来的这几个部分和几个使用者之间存在一一对应的关系。

实际上,这意味着将相似的电影聚类。其中很重要的一项技术就是以高置信度将电影和用户联系起来。比如说,看过《玩具总动员》、《怪物公司》、《冰雪奇缘》的人很可能不会看过《德州电锯杀人狂》、《外星人》和《驱魔人》。

在数学上,这是一个子空间聚类问题,解决这类问题也存在几个标准的方法。Zhang和他的同事将这些方法一一应用到前面说的600个账号上,找出效果最好的那一种方法。

然后,他们将这个表现最好的方法应用到第二个数据库上。结果,他们的算法将55000个账号中的37000个标记为单使用者账号,15000为双使用者账号,3000为三使用者账号。

这样的划分结果是否正确我们无从考证,因为我们不知道实际情况究竟是怎样的。但是,我们可以转而研究这些被标记为多用户的账号,看看他们是不是合理。“这些被标记为多用户的账号表现出了一些有趣的性质”,Zhang和他的同事说。

比如说,他们发现在许多账号中同一个电视台的续集和季播剧被聚类在一起。他们还发现,多使用者账号的一个使用者可能被标记为“Science Fiction and Fantasy”,而另一个使用者可能被标记为“Romantic”。这样的发现给了Zhang和他的同事信心。

最后的问题是,一旦算法发现多人共享一个账号时,什么样的推荐才是合适的。答案非常直接,选取每个使用者最有可能接受的几个推荐,将这些推荐组成一个表单显示。

尽管还不清楚新提出的这个方法比传统的推荐算法好多少,甚至不知道是否比传统方法好。至少,这个方法充满新意。

有趣的是,Zhang和他的同事指出,可以让一个单使用者账号看起来像是一个多使用者账号,方法是向这个账号中故意加入一些使用者不可能做出的评级信息。“向一个账号中加入额外数据,以达到模糊某些信息(比如说性别)的目的,这是一个有趣的课题,”他们说。

在未来的某个时间点,或许我们会看到这项研究的成果。

Ref: arxiv.org/abs/1408.2055 : Guess Who Rated This Movie: Identifying Users Through Subspace Clustering

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值