个性化推荐系统的应用


个性化推荐系统的应用

和搜索引擎不同,个性化推荐系统需要依赖用户的行为数据,因此一般都是作为一个应用存在于不同网站之中。在互联网的各类网站中都可以看到推荐系统的应用,而个性化推荐系统在这些网站中的主要作用是通过分析大量用户行为日志,给不同用户提供不同的个性化页面展示,来提高网站的点击率和转化率。广泛利用推荐系统的领域包括电子商务、电影和视频、音乐、社交
网络、阅读、基于位置的服务、个性化邮件和广告等。

尽管不同的网站使用不同的推荐系统技术,但总地来说,几乎所有的推荐系统应用都是由前台的展示页面、后台的日志系统以及推荐算法系统3部分构成的。因此,本节在介绍不同的个性化推荐系统应用时,都尽量围绕这3个不同的部分进行。

1. 电子商务

电子商务网站是个性化推荐系统的一大应用领域。著名的电子商务网站亚马逊是个性化推荐系统的积极应用者和推广者,被RWW(读写网)称为“推荐系统之王”。1亚马逊的推荐系统深入到了其各类产品中,其中最主要的应用有个性化商品推荐列表和相关商品的推荐列表。图1是亚马逊的个性化推荐列表,这个界面是个性化推荐系统的标准用户界面,它包含以下几个组成部分。

图1 亚马逊的个性化推荐列表

推荐结果的标题、缩略图以及其他内容属性 告诉用户给他们推荐的是什么。
推荐结果的平均分 平均分反应了推荐结果的总体质量,也代表了大部分用户对这本书的看法。
推荐理由 亚马逊根据用户的历史行为给用户做推荐,因此如果它给你推荐了一本金庸的小说,大都是因为你曾经在亚马逊上对武侠方面的书给过表示喜欢的反馈。此外,亚马逊对每个推荐结果都给出了一个按钮Fix this recommendation(修正这一推荐),单击后可以看到推荐理由。如图2所示,亚马逊的推荐结果中有一本关于机器学习的书(Introduction to Machine Learning),单击该推荐结果的Fix this recommendaion按钮后,会弹出如图2所示的页面,该页面给用户提供了5种对这个推荐结果进行反馈的方式,包括Add to Cart(加入到购物车)、Add to Wish List(加入到心愿单)、Rate this item(给书打分)、 I own it(我已经有这本书了)和Not interested(对这本书没兴趣)。同时,在推荐结果的下面还展示了推荐原因,此处是因为我曾经给Probabilistic Graphical Models:Principles and Techniques和Data Mining:Practical Machine Learning Tools and Techniques,Second Edition这两本书打过5分。亚马逊允许用户禁用推荐理由,这主要是出于隐私的考虑。有些用户可能不喜欢他对某些物品的行为被系统用来生成推荐结果,这个时候就可以禁用这些行为。

图2 单击Fix this recommendation按钮后打开的页面

图1提到的个性化推荐列表采用了一种基于物品的推荐算法(item-based method),该算法给用户推荐那些和他们之前喜欢的物品相似的物品。除此之外,亚马逊还有另外一种个性化推荐列表,就是按照用户在Facebook的好友关系,给用户推荐他们的好友在亚马逊上喜欢的物品。如图3所示,基于好友的个性化推荐界面同样由物品标题、缩略图、物品平均分和推荐理由组成。不过这里的推荐理由换成了喜欢过相关物品的用户好友的头像。

图3 基于Facebook好友的个性化推荐列表

除了个性化推荐列表,亚马逊另一个重要的推荐应用就是相关推荐列表。当你在亚马逊购买一个商品时,它会在商品信息下面展示相关的商品。亚马逊有两种相关商品列表,一种是包含购买了这个商品的用户也经常购买的其他商品(如图4所示),另一种是包含浏览过这个商品的用户经常购买的其他商品(如图3所示)。这两种相关推荐列表的区别就是使用了不同用户行为计算物品的相关性。此外,相关推荐列表最重要的应用就是打包销售(cross selling)2。当你在购买某个物品的时候,亚马逊会告诉你其他用户在购买这个商品的同时也会购买的其他几个商品,然后让你选择是否要同时购买这些商品。如果你单击了同时购买,它会把这几件商品“打包”,有时会提供一定的折扣,然后卖给你(如图4所示)。这种销售手段是推荐算法最重要的应用,后来被很多电子商务网站作为标准的应用。
图4 相关推荐列表,购买过这个商品的用户经常购买的其他商品

在看过亚马逊的推荐产品后,读者最关心的应该是这些推荐的应用,究竟给亚马逊带来了多少商业利益。关于这方面的准确数字,亚马逊官方并没有明确公开过,但我们收集到了一些相关的资料。亚马逊的前科学家Greg Linden在他的博客里曾经说过,在他离开亚马逊的时候,亚马逊至少有20%(之后的一篇博文则变更为35%)的销售来自于推荐算法。此外,亚马逊的前首席科学家Andreas Weigend在斯坦福曾经讲过一次推荐系统的课,据听他课的同学透露3,亚马逊有20%~30%的销售来自于推荐系统。

图5 相关推荐列表,浏览过这个商品的用户经常购买的其他商品

图6 亚马逊的打包销售界面
至于个性化推荐系统对亚马逊的意义,其CEO Jeff Bezos在接受采访时曾经说过,亚马逊相
对于其他电子商务网站的最大优势就在于个性化推荐系统,该系统让每个用户都能拥有一个自己
的在线商店,并且能在商店中找到自己感兴趣的商品。4

We have 6.2 million customers, we should have 6.2 million stores. There should be the optimum store for each and every customer.
我们有62万用户,因此也应有62万个商店。我们应该给每个用户提供最符合他需求的商店。

2. 电影和视频网站

在电影和视频网站中,个性化推荐系统也是一种重要的应用。它能够帮助用户在浩瀚的视频库中找到令他们感兴趣的视频。在该领域成功使用推荐系统的一家公司就是Netflix,它和亚马逊是推荐系统领域最具代表性的两家公司。

Netflix原先是一家DVD租赁网站,最近这几年也开始涉足在线视频业务。Netflix非常重视个性化推荐技术,并且在2006年起开始举办著名的Netflix Prize推荐系统比赛5。该比赛悬赏100万美元,希望研究人员能够将Netflix的推荐算法的预测准确度提升10%。该比赛举办3年后,由AT&T的研究人员获得了最终的大奖。该比赛对推荐系统的发展起到了重要的推动作用:一方面该比赛给学术界提供了一个实际系统中的大规模用户行为数据集(40万用户对2万部电影的上亿条评分记录);另一方面,3年的比赛中,参赛者提出了很多推荐算法,大大降低了推荐系统的预测误差。此外,比赛吸引了很多优秀的科研人员加入到推荐系统的研究中来,大大提高了推荐系统在业界和学术界的影响力。

图7是Netflix的电影推荐界面,从中可以看到Netflix的推荐结果展示页面包含了以下几个部分。

 电影的标题和海报。
 用户反馈模块——包括Play(播放)、评分和Not Interested(不感兴趣)3种。
 推荐理由——因为用户曾经喜欢过别的电影。

图7 Netflix的电影推荐系统用户界面

从Netflix的推荐理由来看,它们的算法和亚马逊的算法类似,也是基于物品的推荐算法,即给用户推荐和他们曾经喜欢的电影相似的电影。至于推荐系统在Netflix中起到的作用,Netflix在宣传资料6中宣称,有60%7的用户是通过其推荐系统找到自己感兴趣的电影和视频的。

YouTube作为美国最大的视频网站,拥有大量用户上传的视频内容。由于视频库非常大,用户在YouTube中面临着严重的信息过载问题。为此,YouTube在个性化推荐领域也进行了深入研究,尝试了很多算法。在YouTube最新的论文8中,他们的研究人员表示现在使用的也是基于物品的推荐算法。为了证明个性化推荐的有效性,YouTube曾经做个一个实验,比较了个性化推荐的点击率和热门视频列表的点击率,实验结果表明个性化推荐的点击率是热门视频点击率的两倍。

和YouTube类似,美国另一家著名的视频网站Hulu也有自己的个性化推荐页面。如图8所示,Hulu在展示推荐结果时也提供了视频标题、缩略图、视频的平均分、推荐理由和用户反馈模块。

图8 视频网站Hulu的个性化推荐界面

3. 个性化音乐网络电台

个性化推荐的成功应用需要两个条件。第一是存在信息过载,因为如果用户可以很容易地从所有物品中找到喜欢的物品,就不需要个性化推荐了。第二是用户大部分时候没有特别明确的需求,因为用户如果有明确的需求,可以直接通过搜索引擎找到感兴趣的物品。

在这两个条件下,个性化网络电台无疑是最合适的个性化推荐产品。首先,音乐很多,用户不可能听完所有的音乐再决定自己喜欢听什么,而且每年新的歌曲在以很快的速度增加,因此用户无疑面临着信息过载的问题。其次,人们听音乐时,一般都是把音乐作为一种背景乐来听,很少有人必须听某首特定的歌。对于普通用户来说,听什么歌都可以,只要能够符合他们当时的心情就可以了。因此,个性化音乐网络电台是非常符合个性化推荐技术的产品。

目前有很多知名的个性化音乐网络电台。国际上著名的有Pandora(参见图9)和Last.fm(参见图10),国内的代表则是豆瓣电台(参见图11)。这3种应用虽然都是个性化网络电台,但背后的技术却不太一样。

图9 Pandora个性化网络电台的用户界面

图10 Last.fm个性化网络电台的用户界面

图11 豆瓣个性化网络电台的用户界面

从前端界面上看,这3个个性化网络电台很类似。它们都不允许用户点歌,而是给用户几种反馈方式——喜欢、不喜欢和跳过。经过用户一定时间的反馈,电台就可以从用户的历史行为中习得用户的兴趣模型,从而使用户的播放列表越来越符合用户对歌曲的兴趣。

Pandora背后的音乐推荐算法主要来自于一个叫做音乐基因工程的项目。这个项目起始于2000年1月6日,它的成员包括音乐家和对音乐有兴趣的工程师。Pandora的算法主要基于内容,其音乐家和研究人员亲自听了上万首来自不同歌手的歌,然后对歌曲的不同特性(比如旋律、节奏、编曲和歌词等)进行标注,这些标注被称为音乐的基因。然后,Pandora会根据专家标注的基因计算歌曲的相似度,并给用户推荐和他之前喜欢的音乐在基因上相似的其他音乐。

Last.fm于2002年在英国成立。Last.fm记录了所有用户的听歌记录以及用户对歌曲的反馈,在这一基础上计算出不同用户在歌曲上的喜好相似度,从而给用户推荐和他有相似听歌爱好的其他用户喜欢的歌曲。同时,Last.fm也建立了一个社交网络,让用户能够和其他用户建立联系,同时也能让用户给好友推荐自己喜欢的歌曲。和Pandora相比,Last.fm没有使用专家标注,而是主要利用用户行为计算歌曲的相似度。

音乐推荐是推荐系统里非常特殊的领域。2011年的Recsys大会专门邀请了Pandora的研究人员对音乐推荐进行了演讲9。演讲人总结了音乐推荐的如下特点。

物品空间大 物品数很多,物品空间很大,这主要是相对于书和电影而言。
消费每首歌的代价很小 对于在线音乐来说,音乐都是免费的,不需要付费。
物品种类丰富 音乐种类丰富,有很多的流派。
听一首歌耗时很少 听一首音乐的时间成本很低,不太浪费用户的时间,而且用户大都把音乐作为背景声音,同时进行其他工作。
物品重用率很高 每首歌用户会听很多遍,这和其他物品不同,比如用户不会反复看一个电影,不会反复买一本书。
用户充满激情 用户很有激情,一个用户会听很多首歌。
上下文相关 用户的口味很受当时上下文的影响,这里的上下文主要包括用户当时的心情(比如沮丧的时候喜欢听励志的歌曲)和所处情境(比如睡觉前喜欢听轻音乐)。
次序很重要 用户听音乐一般是按照一定的次序一首一首地听。
很多播放列表资源 很多用户都会创建很多个人播放列表。
不需要用户全神贯注 音乐不需要用户全神贯注地听,很多用户将音乐作为背景声音。
高度社会化 用户听音乐的行为具有很强的社会化特性,比如我们会和好友分享自己喜欢的音乐。

上面这些特点决定了音乐是一种非常适合用来推荐的物品。因此,尽管现在很多推荐系统都是作为一个应用存在于网站中,比如亚马逊的商品推荐和Netflix的电影推荐,唯有音乐推荐可以支持独立的个性化推荐网站,比如Pandora、Last.fm和豆瓣网络电台。

4. 社交网络

最近5年,互联网最激动人心的产品莫过于以Facebook和Twitter为代表的社交网络应用。在社交网络中,好友们可以互相分享、传播信息。社交网络中的个性化推荐技术主要应用在3个方面:
 利用用户的社交网络信息对用户进行个性化的物品推荐;
 信息流的会话推荐;
 给用户推荐好友。

Facebook最宝贵的数据有两个,一个是用户之间的社交网络关系,另一个是用户的偏好信息。因此,Facebook推出了一个推荐API,称为Instant Personalization。该工具根据用户好友喜欢的信息,给用户推荐他们的好友最喜欢的物品。很多网站都使用了Facebook的API来实现网站的个性化。表1中是使用了Facebook的Instant Personalization的具有代表性的网站。图1-14是著名的电视剧推荐网站Clicker使用Instant Personalization给用户进行个性化视频推荐的界面。

表1 使用了Facebook Instant Personalization工具的网站

图12 Clicker利用好友的行为给用户推荐电视剧

除了利用用户在社交网站的社交网络信息给用户推荐本站的各种物品,社交网站本身也会利用社交网络给用户推荐其他用户在社交网站的会话。如图13所示,每个用户在Facebook的个人首页都能看到好友的各种分享,并且能对这些分享进行评论。每个分享和它的所有评论被称为一个会话,如何给这些会话排序是社交网站研究中的一个重要话题。为此,Facebook开发了EdgeRank算法对这些会话排序,使用户能够尽量看到熟悉的好友的最新会话。

图13 用户在Facebook的信息流

除了根据用户的社交网络以及用户行为给用户推荐内容,社交网站还通过个性化推荐服务给用户推荐好友。图14显示了著名社交网站的好友推荐界面。

图14 不同社交网站中好友推荐系统的界面(左上为Facebook,左下为Twitter,右上为LinkedIn,右下为新浪微博)

5. 个性化阅读

阅读文章是很多互联网用户每天都会做的事情。个性化阅读同样符合前面提出的需要个性化推荐的两个因素:首先,互联网上的文章非常多,用户面临信息过载的问题;其次,用户很多时候并没有必须看某篇具体文章的需求,他们只是想通过阅读特定领域的文章了解这些领域的动态。

目前互联网上的个性化阅读工具很多,国际知名的有Google Reader,国内有鲜果网等。同时,随着移动设备的流行,移动设备上针对个性化阅读的应用也很多,其中具有代表性的有Zite和Flipboard。

Google Reader是一款流行的社会化阅读工具。它允许用户关注自己感兴趣的人,然后看到所关注用户分享的文章。如图15所示,如果单击左侧的People you follow(你关注的人),就可以看到其他用户分享的文章。

图15 Google Reader社会化阅读

和Google Reader不同,个性化阅读工具Zite则是收集用户对文章的偏好信息。如图16所示,在每篇文章右侧,Zite都允许用户给出喜欢或不喜欢的反馈,然后通过分析用户的反馈数据不停地更新用户的个性化文章列表。Zite推出后获得了巨大的成功,后被CNN收购。

图16 Zite个性化阅读界面

另一家著名的新闻阅读网站Digg也在首页尝试了推荐系统。11Digg首先根据用户的Digg历史计算用户之间的兴趣相似度,然后给用户推荐和他兴趣相似的用户喜欢的文章。根据Digg自己的统计,在使用推荐系统后,用户的digg行为明显更加活跃,digg总数提高了40%,用户的好友数平均增加了24%,评论数增加了11%。

6. 基于位置的服务

在中关村闲逛时,肚子饿了,打开手机,发现上面给你推荐了几家中关村不错的饭馆,价格、环境、服务、口味都如你所愿,这几乎就是基于位置的个性化推荐系统最理想的场景了。随着移动设备的飞速发展,用户的位置信息已经非常容易获取,而位置是一种很重要的上下文信息,基于位置给用户推荐离他近的且他感兴趣的服务,用户就更有可能去消费。

基于位置的服务往往和社交网络结合在一起。比如Foursquare推出了探索功能,给用户推荐好友在附近的行为(如图17所示)。

图17 Foursquare的探索功能界面

7. 个性化邮件

我们每天都会收到大量的邮件,这些邮件有些对我们很重要(比如领导交代任务的邮件),有些比较次要(比如别人邀约周末打球的邮件),还有些是垃圾邮件。垃圾邮件可以通过垃圾邮件过滤器去,这是一个专门的研究领域,这里就不讨论了。但在正常的邮件中,如果能够找到对用户重要的邮件让用户优先浏览,无疑会大大提高用户的工作效率。

其实,目前在文献中能够查到的第一个推荐系统Tapestry12就是一个个性化邮件推荐系统,它通过分析用户阅读邮件的历史行为和习惯对新邮件进行重新排序,从而提高用户的工作效率。

谷歌的研究人员在这个问题上也进行了深入研究,于2010年推出了优先级收件箱功能。如图18所示,该产品通过分析用户对邮件的历史行为,找到用户感兴趣的邮件,展示在一个专门的收件箱里。用户每天可以先浏览这个邮箱里的邮件,再浏览其他邮件。

谷歌的研究表明,该产品可以帮助用户节约6%的时间13。在如今这个时间就是金钱的年代,6%的节约无疑是一大进步。

图18 Gmail的优先级邮箱

8. 个性化广告

广告是互联网公司生存的根本。很多互联网公司的盈利模式都是基于广告的,而广告的CPC、CPM直接决定了很多互联网公司的收入。目前,很多广告都是随机投放的,即每次用户来了,随机选择一个广告投放给他。这种投放的效率显然很低,比如给男性投放化妆品广告或者给女性投放西装广告多半都是一种浪费。因此,很多公司都致力于广告定向投放(Ad Targeting)的研究,即如何将广告投放给它的潜在客户群。个性化广告投放目前已经成为了一门独立的学科——计算广告学——但该学科和推荐系统在很多基础理论和方法上是相通的,比如它们的目的都是联系用户和物品,只是在个性化广告中,物品就是广告。

个性化广告投放和狭义个性化推荐的区别是,个性化推荐着重于帮助用户找到可能令他们感兴趣的物品,而广告推荐着重于帮助广告找到可能对它们感兴趣的用户,即一个是以用户为核心,而另一个以广告为核心。目前的个性化广告投放技术主要分为3种。

上下文广告 通过分析用户正在浏览的网页内容,投放和网页内容相关的广告。代表系统是谷歌的Adsense。
搜索广告 通过分析用户在当前会话中的搜索记录,判断用户的搜索目的,投放和用户目的相关的广告。
个性化展示广告 我们经常在很多网站看到大量展示广告(就是那些大的横幅图片),它们是根据用户的兴趣,对不同用户投放不同的展示广告。雅虎是这方面研究的代表。

广告的个性化定向投放是很多互联网公司的核心技术,很多公司都秘而不宣。不过,雅虎公司是个例外,它发表了大量个性化广告方面的论文。

在个性化广告方面最容易获得成功的无疑是Facebook,因为它拥有大量的用户个人资料,可以很容易地获取用户的兴趣,让广告商选择自己希望对其投放广告的用户。图1-21展示了Facebook的广告系统界面,该界面允许广告商选择自己希望的用户群,然后Facebook会根据广告商的选择告诉他们这些限制条件下广告将会覆盖的用户数量。

图19 Facebook让广告商选择定向投放的目标用户


  1. 参见读写网的文章 “A Guide to Recommender Systems”。 ↩︎

  2. 更多关于Cross Selling的信息参见维基百科Crossing Selling词条。 ↩︎

  3. 参见Lessons on recommendation Systems, 地址为http://blog.Kiwitobes.com/?p=58↩︎

  4. 参见Mark Levene的An Introduction to Search Engines and Web Navigation, Second Edition(Wiley, 2010)。 ↩︎

  5. 参见http://netflixprize.com/↩︎

  6. 参见http://cdn-0.nflximg.com /us/pdf/Consumer_Press_Kit.pdf, Consumer Press Kit。 ↩︎

  7. 关于这个60%的数字和前面提到的与亚马逊有关的30%,我们想指出的是如果网站将推荐系统放在很重要的位置,比如放在首页,那么这个比例自然会高。但需要注意的是,用户在网站中除了推荐系统,还可以通过搜索和分类目录获得自己感兴趣的信息,那么在这3种方式中,如果利用推荐系统的比例能够达到30%~60%,还是能够说明推荐系统的有效性。当然,如果要彻底证明这个问题,只能将整个推荐系统去掉,然后对比有推荐系统的网站和没有推荐系统的网站的收入,当然这种实验永远不会发生。 ↩︎

  8. 参见http://dl.acm. org/citation. cfm?id=1864770,The Youtube video recommendation system。 ↩︎

  9. PPT为Music Recommendation and Discovery,见http://www.slideshare.net/plamere/music-recommendation-and-discovery↩︎

  10. 这些网站的详细信息见http://www.facebook.com/instantpersonalization/↩︎

  11. 详见Digg官方博客上的文章“Digg Recommendation Engine Updates”,地址为http://about.digg.com/blog/digg-recommendation-engine-updates↩︎

  12. 通过协同过滤筛选信息。 ↩︎

  13. 参见读写网的报道Google Says Priority Inbox Users Spend 6% Less Time on Email(So Are You Using It?)(http://www. readwriteweb.com/search?query=google+says+priority+inbox+use&x=0&y=0)或者谷歌的论文The Learning Behind Gmail Priority Inbox(http://static.googleusercontent.com/external-content/untrusted_dlcp/research.google.com /zh-CN //pubs/archive/36955.pdf)。 ↩︎

  • 25
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值