【推荐系统-冷启动问题】

最新推荐文章于 2025-02-12 14:26:09 发布

joyboysimba

最新推荐文章于 2025-02-12 14:26:09 发布

阅读量472

点赞数

分类专栏：推荐系统文章标签：推荐算法深度学习

本文链接：https://blog.csdn.net/m0_48590589/article/details/131803683

版权

推荐系统专栏收录该内容

2 篇文章

订阅专栏

概述

冷启动问题是推荐系统必须面对的问题。任何推荐系统都要经历数据从无到有、从简单到丰富的过程。那么，在缺乏有价值数据的时候，如何进行有效的推荐被称为"冷启动问题" 。
具体地讲，冷启动问题根据数据匮乏情况的不同，主要分为三类:
( 1 )用户冷启动，新用户注册后，没有历史行为数据时的个性化推荐。
( 2 )物品冷启动，系统加入新物品后(新的影片、新的商品等)，在该商品还没有交互记录时，如何将该物品推荐给用户。
( 3 )系统冷启动，在推荐系统运行之初，缺乏所有相关历史数据时的推荐。
针对不同应用场景，解决冷启动问题需要比较专业的洞察，根据领域专家意见制定合理的冷启动策略。总体上讲，可以把主流的冷启动策略归为以下三类:
( 1 )基于规则的冷启动过程。
( 2 )丰富冷启动过程中可获得的用户和物品特征。
( 3 )利用主动学习、迁移学习和"探索与利用"机制。

基于规则的冷启动

用户冷启动

在冷启动过程中，由于数据的缺乏，个性化推荐引擎无法有效工作，自然可以让系统回退到"前推荐系统"时代，采用基于规则的推荐方法。例如，在用户冷启动场景下，可以使用"热门排行榜" "最近流行趋势" "最高评分"等榜单作为默认的推荐列表。事实上，大多数音乐、视频等应用都是采用这类方法作为冷启动的默认规则。
更进一步，可以参考专家意见建立一些个性化物品列表，根据用户有限的信息，例如注册时填写的年龄、性别、基于 IP 推断出的地址等信息做粗粒度的规则推荐。例如，利用点击率等目标构建一个用户属性的决策树，在每个决策树的叶节点建立冷启动榜单，在新用户完成注册后，根据用户有限的注册信息，寻找决策树上对应的叶节点榜单，完成用户冷启动过程。

物品冷启动

在物品冷启动场景下，可以根据一些规则找到该物品的相似物品，利用相似物品的推荐逻辑完成物品的冷启动过程。当然，寻找相似物品的过程是与业务强相关的。

Airbnb 是全球最大的短租房中介平台。在新上线短租房时， Airbnb 会根据该房屋的属性对该短租房指定一个"聚类"，位于同样"聚类"中的房屋会有类似的推荐规则。那么，为冷启动短租房指定"聚类"所依靠的规则有如下三条 :
( 1 )同样的价格范围。
( 2 )相似的房屋属性(面积、房间数等) 。
( 3 )距目标房源的距离在 10 公里以内。
找到最符合上述规则的 3 个相似短租房，根据这 3 个已有短租房的聚类定位冷启动短租房的聚类。通过 Airbnb 的例子可以知道，基于规则的冷启动方法更多依赖的是领域专家对业务的洞察。在制定冷启动规则时，需要充分了解公司的业务特点，充分利用已有数据，才能让冷启动规则合理且高效。

丰富冷启动过程中可获得的用户和物品特征

基于规则的冷启动过程在大多数情况下是有效的，是非常实用的冷启动方法。但该过程与推荐系统的"主模型"是割裂的有没有可能通过改进推荐模型达到冷启动的目的呢?当然是有的，改进的主要方法就是在模型中加入更多用户或物品的属性特征，而非历史数据特征。
在历史数据特征缺失的情况下，推荐系统仍然可以凭借用户和物品的属性特征完成较粗粒度的推荐。这类属性特征主要包括以下几类 :

(1)用户的注册信息.包括基本的人口属性信息(年龄、性别、学历、职业等)和通过 IP 地址、 GPS 信息等推断出的地理信息

(2)第三方DMP (Data Management Platform ，数据管理平台)提供的用户信息。

(3) 物品的内容特征。在推荐系统中引人物品的内容相关特征是有效地解决"物品冷启动"的方法。物品的内容特征可以包括物品的分类、标签、描述文字等。具体到不同的业务领域，还可以有更丰富的领域相关内容特征。例如，在视频推荐领域，视频的内容特征可包括，该视频的演员、年代、风格，等等。

(4)引导用户输入的冷启动特征。有些应用会在用户第一次登录时引导用户输入一些冷启动特征。例如，一些音乐类应用会引导用户选择"音乐风格"一些视频类应用会引导用户选择几部喜欢的电影。这些都是通过引导页面来完成丰富冷启动特征的工作。

利用主动学习、迁移学习和"探索与利用"机制

主动学习

主动学习的学习目标是尽可能快速地定位所有物品可能的打分。选择最大的聚类d。主动学习的过程完全遵循"行动反馈状态更新"的强化学习循环。它的学习目的就是在一次又一次的循环迭代中，让推荐系统尽量快速地度过冷启动状态，为用户提供更个性化的推荐结果。

迁移学习

迁移学习是在某领域知识不足的情况下，迁移其他领域的数据或知识，用于本领域的学习。那么，迁移学习解决冷启动问题的原理就不难理解了，冷启动问题本质上是某领域的数据或知识不足导致的，如果能够将其他领域的知识用于当前领域的推荐，那么冷启动问题自然迎刃而解。

探索与利用机制

探索与利用"机制是解决冷启动问题的另一个有效思路。简单地讲，探索与利用是在"探索新数据"和"利用旧数据"之间进行平衡，使系统既能利用旧数据进行推荐，达到推荐系统的商业目标，又能高效地探索冷启动的物品是否是"优质"物品，使冷启动物品获得曝光的倾向，快速收集冷启动数据。

最经典的探索与利用方法 UCB (Upper Confidence Bound）。

最后，作者用“巧妇难为无米之炊”来描述冷启动问题，总体来说解决冷启动问题有两个思路。

(1)虽然没有米，但不可能什么吃的都没有，先弄点粗粮尽可能做出点吃的再说。这就要求冷启动算法在没有精确的历史行为数据的情况下，利用一些粗粒度的特征、属性，甚至其他领域的知识进行冷启动推荐。
(2)边做吃的边买米，快速度过"无米"的阶段。这种解决问题的思路是先做出点吃的，卖了吃的换钱买米，将饭越做越好，米越换越多。这就是利用主动学习、"探索与利用"机制，甚至强化学习模型解决冷启动问题的思路。