推荐的核心思想是:样本在空间中不会均匀分布,而是成簇(或者说具有某种偏好)。
1. 基于人口统计学的推荐
基于人口统计学的推荐算法时间上是一种简单的人工规则,一般来说根据用户的基本信息:如年龄,学历,地理位置等等来寻找相似用户进行推荐。其基本特点为:
1)这种方法仅仅依靠用户基本注册信息,而不依靠用户的历史行为数据,因此不存在冷启动问题。类似于膜拜杯中直接根据地理位置来预测用户的目的地。
2)显然,这种方法非常粗糙。
2. 基于内容的推荐
基于内容的推荐其实就是一个相似度度量,比如比较两篇文档的TF-IDF。或者在许多音乐网站,书籍网站,会对物品建立一些tag,从而来进行相似度度量。其基本特点为:
1)不需要用户数据,不存在冷启动问题;
2)由于采用的特征是物品本身的属性,不受用户的干扰,因此不存在过度推荐问题;
3. 基于关联规则的推荐
基于关联规则的推荐,就是从物品中挖掘频繁项集,比如apriori算法挖掘频繁模式。当然这一般需要离线计算,因为apriori算法复杂度比较高的。
1)由于关联规则是依靠用户的历史数据的(比如啤酒 + 尿布),因此存在冷启动问题;
2)存