推荐系统中的数据稀疏和冷启动问题

原文链接:RS:推荐系统中的数据稀疏和冷启动问题

如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。

冷启动问题主要分为三类: 
(1) 用户冷启动:如何给新用户做个性化推荐的问题,新用户刚使用网站的时候,系统并没有他的行为数据; 
(2) 物品冷启动:解决如何将新的物品推荐给可能对它感兴趣的用户; 
(3) 系统冷启动:如何在新开发网站设计个性化推荐系统,此时网站上用户很少,用户行为也少,只有一些商品的信息。

 

协同过滤推荐基于这样的假设:为用户找到他真正感兴趣的内容的方法是,首先找与他兴趣相似的用户,然后将这些用户感兴趣的东西推荐给该用户。所以该推荐技术最大的优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影等,并能发现用户潜在的兴趣点。协同过滤推荐算法主要是利用用户对项目的评分数据,通过相似邻居查询,找出与当前用户兴趣最相似的用户群,根据这些用户的兴趣偏好为当前用户提供最可能感兴趣的项目推荐列表。为更进一步地说明协同过滤推荐算法的推荐原理,本文以用户对电影的推荐为例进行阐述。表1 是用户对电影评分数据的一个简单矩阵的例子,其中每一行代表一个用户,每一列代表一部电影,矩阵中的元素表示用户对所看电影的评分,评分值一般是从1到5 的整数,评分值越大表明用户喜欢该电影。

 

对表1 中的数据利用协同过滤推荐算法,系统查找到用户Alice、Bob 和Chris 具有相似的兴趣爱好,因为他们对后3 部电影的评分相同,那么系统会推荐电影Snow white 给Chris,因为与其兴趣偏好相似的用户Alice 和Bob 对该电影的评分值较高。在表2 中,对于新用户Amy,没有评分信息,根据协同过滤推荐算法,无法根据评分信息查找与其兴趣偏好相似的用户,所以系统无法为该用户推荐电影,同样对于新电影Shrek,因缺乏评分信息系统无法感知它的存在,所以也无法将其推荐出去。这就是协同过滤推荐算法所存在的新用户和新项目问题。

 

 

补充一些对于冷启动的解决方法:

推荐系统冷启动在不同的产品,不同的应用场景会有不同的做法,通用的做法其他的知友都已经有说明,即通过不同的维度获取用户的基本特征,操作习惯,从而进行粗粒度的推荐,但确实说起来容易做起来难。因为在中国,只有几家比较大的如腾讯,阿里,百度掌握着用户的行为数据,小公司做起来有点知易行难的感觉,在这里分别说说自己的一些思路和方法

  1. 利用用户在其他地方已经沉淀的数据进行冷启动。在腾讯等大公司的产品,确实是可以通过各大产品打通的日志系统,提取用户的行为特征去确定用户是个什么样的人。比如现在QQ音乐的猜你喜欢电台想要去猜测还没有用过QQ音乐用户的口味偏好,一大优势在于可以利用其他腾讯平台的数据,比如在QQ空间关注了谁,在腾讯微博关注了谁,这些都可以作为推荐系统的冷启动数据,甚至进一步,比如在腾讯视频刚看了一部很火的动漫,如果在QQ音乐推荐了一首这个动漫的主题曲,你是否会觉得很惊喜呢?=P 所以,在这方面可以做的尝试,就是获取用户在其他平台已有的数据。题主担心的是一个初创网站或app用户注册前还没有他的数据表现,不妨尝试将注册路径改为用新浪/QQ/微信等社交平台登录,一方面可以降低用户注册成本提高转化率,一方面可以同时获得用户的社交信息,从而获得推荐系统的冷启动数据。举个大家都应该知道的产品——“今日头条”,号称5秒钟知道你的兴趣偏好,其实也是在用户登录新浪等社交平台后,获取用户的关注列表,以及爬取用户最近参与互动的feed(转发/评论/赞)进行语义分析,从而获取用户的偏好。这种方法无论公司或平台大小,其实都可以尝试,会比盲目的热门推荐效果会好。
  2. 利用用户的手机等兴趣偏好进行冷启动。Android手机开放度较高,因此对于各大厂商来说多了很多了解用户的机会,就是——用户除了安装的应用之外,还安装了其他什么应用。举个例子,当一个用户安装了美丽说,蘑菇街,辣妈帮,大姨妈等应用,是否就是基本判定该手机用户是个女性,且更加可以细分的知道是在备孕还是少女,而安装了rosi写真,1024客户端带有屌丝气质的应用则可以锁定用户是个屌丝,此时对于应用方来说,是一个非常珍贵的资源。比如一个新闻应用如今日头条,拿到了这些用户安装应用的数据,用户首次安装就可以获得相对精准的推荐,不明真相的用户还会暗赞我靠这应用这么符合我口味!目前读取用户安装的应用不仅是APP应用商店的标配,新闻类,视频类做数据推荐的应用也有一些开始读取这块的数据,这个对于冷启动是相当有帮助的。当然,这种数据也要为用户做好保密和数据加密。另外如豌豆荚锁屏,360卫士app更是做了检测用户每天开启应用的频率等等,这种相比只了解用户安装什么应用,对用户的近期行为画像会更为精准。
  3. 制造选项,让用户选择自己感兴趣的点后,即时生成粗粒度的推荐。相对前面两个来说,路径不够自然,用户体验相对较差,但是给予足够好的设计,还是能吸引用户去选择自己感兴趣的点,提升转化率。比如网易云音乐的私人FM,由于没有其他用户行为数据,做口味测试则变得很重要了。而简单幽默的文案引导加上简单的几个选择,也不失为一个好的冷启动方法。

 

  • 3
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
推荐系统冷启动算法主要解决推荐系统,当用户或物品的历史行为数据非常有限或者完全缺失时,如何进行有效的推荐的问题。下面是推荐系统冷启动算法的综述: 1. 利用已有用户信息进行粗粒度推荐:根据用户的基础属信息(如别、设备信息、网络信息、位置等)进行推荐。可以根据专家经验和基础属信息构建更细粒度的排行榜或热度榜,从而进行推荐。 2. 利用算法和基础属进行推荐:可以利用决策树模型等算法,根据用户的基础属信息构建冷启动榜单。通过训练模型,将用户的基础属作为特征,构建冷启动榜单,从而进行推荐。 3. 利用外部数据寻找相似用户进行推荐:可以利用外部数据,如微信好友、拼多多好友等,找到与目标用户相似的用户,从而进行推荐。通过分析用户之间的社交关系或者共同兴趣等信息,找到相似用户的行为模式,进行推荐。 4. 物品冷启动:当物品的历史行为数据非常有限或者完全缺失时,可以利用物品的基础属信息进行推荐。根据物品的属信息,构建冷启动榜单,从而进行推荐。 5. 协同过滤推荐系统:协同过滤是一种常用的推荐算法,它利用用户或物品间的相似度以及历史行为数据对目标用户进行推荐。然而,协同过滤推荐系统面临数据稀疏和可扩展问题,特别是在冷启动情况下。 综上所述,推荐系统冷启动算法主要包括利用已有用户信息进行粗粒度推荐、利用算法和基础属进行推荐、利用外部数据寻找相似用户进行推荐、物品冷启动以及协同过滤推荐系统等方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值