当新用户或新项目进入内容平台时,就会出现冷启动(Cold Start)问题。
以协同过滤这样的经典推荐系统为例,假设每个用户或项目都有评级,这样我们就可以推断出类似用户/项目的评级,即使这些评级没办法调用。但是,对于新进入的用户/项目,实现这一点很困难,因为我们没有相关的浏览、点击或下载等数据,也就没办法使用矩阵分解技术来“填补空白”。
不过,研究人员已经提出了各种方法来解决冷启动问题。在这篇文章中,我们会简单介绍一些解决推荐系统中冷启动问题的方法,至于这些方法在实践工作中是否奏效,尚无定论。
精华版
•基于代表性:使用有代表性的项目和用户子集;
•基于内容:使用诸如文本、社交网络等的辅助信息;
•老虎机:考虑新项目中的EE问题(Exploration&Exploitation);
•深度学习:使用黑盒子。
详细版
基于代表性
如果没有足够的用户和项目信息,我们可以更多地依赖那些能够“代表”项目和用户的用户。这就是基于代表性的方法背后的哲学。
代表性用户的兴趣偏好线性组合能与其他用户的无限接近。例如,基于代表性的矩阵因子分解(RBMF,Representative Based Matrix Factorization),其实是矩阵因子分解方法的扩展,其附加约束条件是m个项应该由k个项的线性组合表示,如下面的目标函数所示:
有了这个附加约束条件,就有了类似于标准MF方法的重建误差。当新用户进入平台时,要求新用户对这k个项进行评级,并用它来推断其他m-k项的评级。这种方法通过让用户对某些项目进行额外评级,从而改进对新用户的推荐。经过改进的RBMF只需要一部分新用户对这些项目评级,而不是所有的新用户。
优点
•用少数代表性用户来表达新用户,更具可解释性;
•是MF的简单扩展。