简介
在推荐系统里,有些场景下是需要推荐相似商品,从而可以更好的挖掘用户行为并且提升用户体验。这些情况下需要一些公式计算商品的相似度。
一、距离公式
1、曼哈顿距离
|X1-X2| + |Y1-Y2|
即每个纬度上距离的差的绝对值之和。
公式比较简单,因此计算起来速度应该是快的。
2、欧式距离
如果特征完好的情况下,曼哈顿距离和欧式距离还是比较合适的。
3、闵可夫斯基距离
把曼哈顿距离和欧式距离连起来,r=1为满汉顿距离,r=2为欧式距离。如果r越大则单项特征的影响越大。查了一些博客,有些人说曼哈顿和欧式距离可以计算用户评分相似性,比如用户U1,U2对电影A,B的评分为(U1(A), U1(B))和(U2(A), U2(B)),则把评分套入公式即可。
4、皮尔逊相关系数
皮尔逊相关系数用来计算变量之间的相似性。
5、余弦相似性
余弦相似性对距离不敏感,欧式距离对两特征间的距离敏感。
6、马氏距离
其中σ是协方差矩阵。
二、相似度重要性
加入相似度重要性的策略,这些策略的本质是一样的,当只有少量评分用于计算时,就会降低相似度重要性的权重
1、公式
Iuv为u和v用户共同评分的商品数,当I小雨给定的参数r时,他们的相似度w会收到与I成比例的惩罚
2、当能够根据常量的收缩权重的时候,可以使用公式