【推荐系统-冷启动问题】

文章探讨了推荐系统在缺乏数据时面临的冷启动问题,分为用户冷启动、物品冷启动和系统冷启动三种类型。解决策略包括基于规则的方法,如热门榜单和个性化规则;丰富用户和物品特征,利用第三方数据和内容特征;以及运用主动学习、迁移学习和探索与利用机制。这些方法旨在在数据不足的情况下提供推荐,并逐渐优化推荐质量。
摘要由CSDN通过智能技术生成

概述

冷启动问题是推荐系统必须面对的问题。任何推荐系统都要经历数据从无到有、从简单到丰富的过程。那么,在缺乏有价值数据的时候,如何进行有效的推荐被称为"冷启动问题" 。
具体地讲,冷启动问题根据数据匮乏情况的不同,主要分为三类:
( 1 )用户冷启动,新用户注册后,没有历史行为数据时的个性化推荐。
( 2 )物品冷启动,系统加入新物品后(新的影片、 新的商品等),在该商品还没有交互记录时,如何将该物品推荐给用户。
( 3 )系统冷启动,在推荐系统运行之初,缺乏所有相关历史数据时的推荐 。
针对不同应用场景,解决冷启动问题需要比较专业的洞察,根据领域专家意见制定合理的冷启动策略。总体上讲,可以把主流的冷启动策略归为以下三类:
( 1 )基于规则的冷启动过程。
( 2 )丰富冷启动过程中可获得的用户和物品特征。
( 3 )利用主动学习、迁移学习和"探索与利用"机制。

基于规则的冷启动

用户冷启动

在冷启动过程中,由于数据的缺乏,个性化推荐引擎无法有效工作,自然可以让系统回退到"前推荐系统"时代,采用基于规则的推荐方法 。 例如,在用户冷启动场景下,可以使用"热门排行榜" "最近流行趋势" "最高评分"等榜单作为默认的推荐列表 。 事实上,大多数音乐、视频等应用都是采用这类方法作为冷启动的默认规则 。
更进一步,可以参考专家意见建立一些个性化物品列表,根据用户有限的信息,例如注册时填写的年龄、性别 、 基于 IP 推断出的地址等信息做粗粒度的规则推荐 。 例如,利用点击率等目标构建 一 个用户属性的决策树,在每个决策树的叶节点建立冷启动榜单,在新用户完成注册后,根据用户有限的注册信息,寻找决策树上对应的叶节点榜单,完成用户冷启动过程。

物品冷启动

在物品冷启动场景下,可以根据一些规则找到该物品的相似物品,利用相似物品的推荐逻辑完成物品的冷启动过程。当然, 寻找相似物品的过程是与业务强相关的 。

Airbnb 是全球最大的短租房中介平台 。 在新上线短租房时, Airbnb 会根据该房屋的属性对该短租房指定一个"聚类",位于同样"聚类"中的房屋会有类似的推荐规则 。 那么,为冷启动短租房指定"聚类"所依靠的规则有如下三条 :
( 1 )同样的价格范围 。
( 2 )相似的房屋属性(面积、房间数等) 。
( 3 )距目标房源的距离在 10 公里以内 。
找到最符合上述规则的 3 个相似短租房,根据这 3 个已有短租房的聚类定位冷启动短租房的聚类。通过 Airbnb 的例子可以知道,基于规则的冷启动方法更多依赖的是领域专家对业务的洞察。 在制定冷启动规则时,需要充分了解公司的业务特点,充分利用已有数据,才能让冷启动规则合理且高效。

丰富冷启动过程中可获得的用户和物品特征

基于规则的冷启动过程在大多数情况下是有效的,是非常实用的冷启动方法。 但该过程与推荐系统的"主模型"是割 裂 的有没有可能通过改进推荐模型达到冷启动的目的呢?当然是有的,改进的主要方法就是在模型中加入更多用户或物品的属性特征,而非历史数据特征 。
在历史数据特征缺失的情况下 ,推荐系统仍然可以凭借用户和物品的属性特征完成较粗粒度的推 荐 。 这类属性特征主要包括以下几类 :

(1)用户的注册信息.包括基本的人口属性信息(年龄、性别、学历、职业等)和通过 IP 地址 、 GPS 信息等推断出的地理信息

(2)第三方DMP (Data Management Platform ,数据管理平台)提供的用户信息 。

(3) 物品的内容特征。在推荐系统中引人物品的内容相关特征是有效地解决"物品冷启动"的方法。 物品的内容特征可以包括物品的分类、标签、描述文字等 。 具体到不同的业务领域,还可以有更丰富的领域相关内容特征 。 例如,在视频推荐领域,视频的内容特征可包括,该视频的演员 、 年代 、 风格,等等 。

(4)引导用户输入的冷启动特征。有些应用会在用户第一次登录时引导用户输入一些冷启动特征 。 例如,一些音乐类应用会引导用户选择"音乐风格"一些视频类应用会引导用户选择几部喜欢的电影。 这些都是通过引导页面来完成丰富冷启动特征的工作 。

利用主动学习、迁移学习和"探索与利用"机制

主动学习

 

主动学习的学习目标是尽可能快速地定位所有物品可能的打分。选择最大的聚类d。主动学习的过程完全遵循"行动反馈状态更新"的强化学习循环 。 它的学习目的就是在一次又 一 次的循环迭代中,让推荐系统尽量快速地度过冷启动状态,为用户提供更个性化的推荐结果 。

迁移学习

迁移学习是在某领域知识不足的情况下,迁移其他领域的数据或知识,用于本领域的学习 。 那么,迁移学习解决冷启动问题的原理就不难理解了,冷启动问题本质上是某领域的数据或知识不足导致的,如果能够将其他领域的知识用于当前领域的推荐,那么冷启动问题自然迎刃而解 。

探索与利用机制

探索与利用"机制是解决冷启动问题的另一个有效思路 。 简单地讲,探索与利用是在"探索新数据"和"利用旧数据"之间进行平衡,使系统既能利用旧数据进行推荐,达到推荐系统的商业目标,又能高效地探索冷启动的物品是否是"优质"物品,使冷启动物品获得曝光的倾向,快速收集冷启动数据。

最经典的探索与利用方法 UCB (Upper Confidence Bound)。


最后,作者用“巧妇难为无米之炊”来描述冷启动问题,总体来说解决冷启动问题有两个思路。

(1)虽然没有米,但不可能什么吃的都没有,先弄点粗粮尽可能做出点吃的再说 。 这就要求冷启动算法在没有精确的历史行为数据的情况下,利用一些粗粒度的特征、属性,甚至其他领域的知识进行冷启动推荐 。
(2)边做吃的边买米,快速度过"无米"的阶段 。 这种解决问题的思路是先做出点吃的,卖了吃的换钱买米,将饭越做越好,米越换越多 。 这就是利用主动学习、"探索与 利用"机制,甚 至强 化 学 习模型解决冷启动问题的思路 。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值