基于邻域的模型
协同过滤领域最常见的方法就是基于领域的模型。其最原始的形式是基于用户的方法(详见文献[13]1):基于志趣相投的相似用户的评分记录来估计未知评分。
随后是一种类似的,基于物品的方法:使用同一个用户在相似物品上的评分来估计未知的评分
- 其具有更好的扩展性;
- 并提高了准确度;
- 能更好的解释预测背后的原因(用户对他之前喜欢的物品比较熟悉,但他们却不认识这些所谓志趣相投的人)。
一般来说,隐语义模型在描述数据的各方面具有很强的表达能力,因此其预测结果比基于邻域的模型要好。但是,基于领域的模型更加普遍,是因为:
- 1)基于邻域的模型,相对简单;
- 2)更重要的原因是,基于邻域的模型提供了推荐背后原因的直观解释——其不仅提高推荐的准确性;同时增强了用户体验;
- 3)基于邻域的模型,能够根据一个新进入系统的用户反馈立即提供推荐。
本节结构:
- 1)如何估计两个物品之间的相似度;
- 2)基于相似度的领域方法,及其一些特定限制;
- 3)解决这些问题的建议方法:以计算时间上微小的增加为代价,提高预测准确度。
1.相似度度量
相似度度量是基于物品方法的核心。
皮尔逊相关系数,仅仅是基于共同的用户支持,建议用基准预测器的残差来补偿特定用户和特定物品的偏差。
ρ ^ i j = ∑ u ∈ U ( i , j ) ( r u i − b u i ) ( r u j − b u j ) ∑ u ∈ U ( i , j ) ( r u i − b u i ) 2 ⋅ ∑ u ∈ U ( i , j ) ( r u j − b u j ) 2 (3.15) \hat{\rho}_{ij} = \frac{\sum_{u \in U(i,j)} (r_{ui} - b_{ui} ) (r_{uj} - b_{uj} )}{\sqrt{\\ \sum_{u \in U(i,j)} (r_{ui} - b_{ui} )^2 · \sum_{u \in U(i,j)} (r_{uj} - b_{uj} )^2}\\ }\tag{3.15} ρ^ij=∑u∈U(i,j)(rui−bui)2⋅∑u∈U(i,j)(ruj−buj)2