构建推荐系统的核心任务之一在于如何准确地分析出用户的兴趣特点,也就是我们常说的用户画像。
简单说来,用户画像是指从用户产生的各种数据中挖掘和抽取用户在不同属性上的标签,如年龄、性别、职业、收入、兴趣等。完备且准确的属性标签将有力地揭示用户本质特征,因而极大地促进精准的个性化推荐。
用户画像研究的现状和挑战
目前,主流用户画像方法一般是基于机器学习尤其是有监督学习的技术。这类方法从用户数据中抽取特征来作为用户的表示向量,并利用有用户属性标签的数据作为有标注数据来训练用户画像预测模型,从而对更多的没有标签的用户的属性进行预测。
尽管目前的用户画像方法已经取得了不错的效果并被广泛应用于实际推荐系统中,这些方法仍然存在一定的问题和挑战:
首先,这些已有的方法大多数都基于手工抽取的离散特征,这些特征无法刻画用户数据的上下文信息,因此对于用户的表征能力较为有限。
其次,现有的用户画像方法通常基于简单的线性回归或分类模型,无法从用户数据中自动学习高层次抽象特征,也无法对特征之间的交互关系进行建模。另外,已有的用户画像方法往往基于单一类型和单一来源的数据,这些数据对于用户的表征不够丰富。而实际上,用户数据往往是多来源和多类型的。
最后,已有的用户画像方法大都没有考虑用户属性标签的时效性,因此很难刻画用户动态变化的属性如兴趣等。