余弦相似度 —— Cosine Similarity

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。

与欧几里德距离类似,基于余弦相似度的计算方法也是把用户的喜好作为n-维坐标系中的一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个用户之间的相似度值就是两条直线(向量)间夹角的余弦值。因为连接代表用户评分的点与原点的直线都会相交于原点,夹角越小代表两个用户越相似,夹角越大代表两个用户的相似度越小。同时在三角系数中,角的余弦值是在[-1, 1]之间的,0度角的余弦值是1,180角的余弦值是-1。

借助三维坐标系来看下欧氏距离和余弦相似度的区别:

从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上的差异,而不是位置。如果保持A点的位置不变,B点朝原方向远离坐标轴原点,那么这个时候余弦相似度cosθ是保持不变的,因为夹角不变,而A、B两点的距离显然在发生改变,这就是欧氏距离和余弦相似度的不同之处。

根据欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异;而余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不敏感)。

调整余弦相似度 —— Adjusted Cosine Similarity
在余弦相似度的介绍中说到:余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。因此没法衡量每个维数值的差异,会导致这样一个情况:比如用户对内容评分,5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者极为相似,但从评分上看X似乎不喜欢这2个内容,而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如X和Y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然更加符合现实。

余弦相似度是衡量两个非零向量之间相似度的度量方法,它是通过计算两个向量在方向上的相似度来进行的,其值介于-1和1之间。两个向量的余弦相似度越高,表示它们之间的夹角越小,方向越相似。在文本分析、推荐系统等领域有广泛应用。 余弦相似度的计算公式为两个向量的点积除以它们各自模长的乘积。假设我们有两个向量A和B,则它们之间的余弦相似度可以表示为: cos(θ) = (A · B) / (||A|| * ||B||) 其中,A · B表示向量A和B的点积,||A||和||B||分别表示向量A和B的模长。 以下是一个简单的C语言实现示例: ```c #include <stdio.h> #include <math.h> // 计算向量的模长 double vector_magnitude(double *vector, int size) { double sum = 0.0; for (int i = 0; i < size; i++) { sum += vector[i] * vector[i]; } return sqrt(sum); } // 计算两个向量的点积 double dot_product(double *vectorA, double *vectorB, int size) { double sum = 0.0; for (int i = 0; i < size; i++) { sum += vectorA[i] * vectorB[i]; } return sum; } // 计算余弦相似度 double cosine_similarity(double *vectorA, double *vectorB, int size) { double dot = dot_product(vectorA, vectorB, size); double magnitudeA = vector_magnitude(vectorA, size); double magnitudeB = vector_magnitude(vectorB, size); return dot / (magnitudeA * magnitudeB); } int main() { double vectorA[] = {1, 2, 3}; double vectorB[] = {4, 5, 6}; int size = 3; double similarity = cosine_similarity(vectorA, vectorB, size); printf("Cosine Similarity: %f\n", similarity); return 0; } ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值