【推荐系统】推荐系统-基础算法 冷启动、及深度学习在冷启动上的应用

冷启动 

  • 冷启动在推荐系统中表示该系统积累数据量过少,无法给新用户做个性化推荐的问题,这是产品推荐的一大难题。每个有推荐功能的产品都会遇到冷启动的问题。一方面,当新商品时上架也会遇到冷启动的问题,没有收集到任何一个用户对其浏览、点击或者购买的行为,也无从判断如何将商品进行推荐;另一方面,新用户到来的时候,如果没有他在应用上的行为数据,也无法预测其兴趣,如果给用户的推荐千篇一律,没有亮点,会使用户在一开始就对产品失去兴趣,从而放弃使用。所以在冷启动的时候要同时考虑用户的冷启动和物品的冷启动。

冷启动问题可以分为以下三类。

  • 用户冷启动:用户冷启动主要解决如何给新用户作个性化推荐的问题。当新用户到来时,我们没有他的行为数据,所以也无法根据他的历史行为预测其兴趣,从而无法借此给他做个性化推荐。
  • 物品冷启动:物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。
  • 系统冷启动:系统冷启动主要解决如何在一个新开发的网站上(还没有用户,也没有用户行为,只有一些物品的信息)设计个性化推荐系统,从而在产品刚上线时就让用户体验到个性化推荐服务这一问题。

针对用户冷启动,下面给出一些解决方案。

  • 方案一:有效利用用户的账户信息。

利用用户的账号信息。一般来说,国内腾讯的QQ号、微信号,淘宝的旺旺号,新浪的微博号,国外的 Google 账号、Facebook 账号已经成为大部分APP的快速注册账号。如图4.28所示,网站或APP可以通过公开的SDK支持外部账号的登录。

如果用户使用这些账号进行登录,我们可以通过这些账号信息追溯用户在平台上的行为,作为冷启动的参考。

  • 方案二:利用用户的手机IMEI号进行冷启动。

有Android 系统的手机开放度较高,因此对于各大商家来说多了很多了解用户的机会。iPhone也有类似的接口可以获取到 OpenUDID来区分不同的设备。

比如大家在淘宝浏览了某些物品后,在今日头条、网易新闻等APP的广告推荐中,就立刻有了相关产品的广告,这就是因为他们在背后已经用设备号将你在不同APP中的行为连接起来了。

  • 方案三:制造选项,让用户选择自己感兴趣的点后,即时生成粗粒度的推荐。

相对于前面两个方案来说,这种路径不够自然,用户体验相对较差,但是如果给予足够好的设计,还是能吸引用户去选择自己感兴趣的点,而使转化率得以提升。比如在QQ 音乐APP中就有用户偏好的选择页面,如下图所示,网易云音乐也有类似的功能入口。

针对物品的冷启动解决方案

  • 方案一:利用物品的内容信息。

物品冷启动需要解决的问题是如何将新加入的物品推荐给对它感兴趣的用户。这时候最基本的方法是通过物品描述等文字中的语义来计算其相似度。常用的算法有TF—IDF。

  • 方案二:利用专家标注的数据。

2009年Amatriain等人发表在ACM的一篇关于推荐系统的文章《The wisdom of thefow: a collaborative filtering approach based on expert opimions from the web》。所谓少数人的智慧,实际指的是作者提出的基于专家的协同过滤(CF)在某些方面要优胜于传统的CF算法。在某些场景下,基于专家标注的数据效果甚至好于基于用户行为的数据。

例如国外的Pandora音乐APP中,描述一首歌曲的特征细化到了歌曲的编曲、乐器搭配、乐器演奏特征、风格、根源、人声的特征、曲调、旋律特征等维度,并且以一种非常客观的角度来描述歌曲的特征,是一种所有人耳朵都能接触到的物理属性,即不会随欣赏者阅历的不同而有不同的认知,其中排除了情感属性。而且Pandora能显示出来的这些标签仅仅是音乐基因非常小的一部分,还有很多其他没有曝光的音乐标签,但也足以窥见这是种专业而客观的描述方式,把一首歌当作一个看得见摸得着的物品进行剖析,用标签来描述它。下面介绍如何通过专家数据进行推荐。

首先定义专家:在一个特定的领域内,他们能对该领域内的条目给出深思熟虑的、一致的、可靠的评价(打分)。在《The wisdom of the few》这篇文章里,作者并没有详细地探讨如何从数据中发现一批领域专家,他们挑选的是一批从http://rottentomatoes.com 爬取的现成的电影评论专家,这样可以使得他们讨论的主题更为集中,因为这些专家都是经过人工筛选的,所以,可以忽略因专家挑选算法的不足而给后续算法与分析带来的偏差。

  • 专家的打分比一般用户要多,数据集也要更稠密
  • 专家打分的数据比用户打分一致性更强,且打分的覆盖面更广
  • 专家数据更加优质,专家CF算法和传统的基于用户的CF算法基本一直,只是将原来的用户评分数据替换成了专家评分数据,从而计算出物品的相似度。比传统CF的平均误差要大,但覆盖度要比传统CF大

深度学习在物品冷启动上的应用

  • 基于专家CF算法可以降低对用户行为数据的依赖,解决新物品冷启动的问题,但如果没有能力也没有足够资金获得如此大量的专家数,深度学习可以让我们减少对外部数据的依赖&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值