Python中余弦相似度的计算

  • 余弦相似度定义

余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度.

给定两个属性向量,AB,其余弦相似性\cos (\theta)由点积和向量长度给出,如下所示:

\text { similarity }=\cos (\theta)=\frac{A \cdot B}{\|A\|\|B\|}=\frac{\sum_{i=1}^{n} A_{i} \times B_{i}}{\sqrt{\sum_{i=1}^{n}\left(A_{i}\right)^{2}} \times \sqrt{\sum_{i=1}^{n}\left(B_{i}\right)^{2}}}

在python中许多模块可以计算两个列表之间的余弦相似度,如scipy、numpy、sklearn等.

  • scipy

scipy中的scipy.spatial.distance.cosine函数可计算余弦距离,因此,我们可以用1减去余弦距离得到余弦相似度。

from scipy import spatial
a = [1, 2, 3, 4]
b = [5, 6, 7, 8]
res = 1 - spatial.distance.cosine(a, b)
  • numpy

numpy中的numpy.dot函数可以两个向量的点积,numpy.linalg.norm函数可以计算向量的欧氏距离(原函数为矩阵计算范数函数,具体方法详见用户104109121的文章)。因此,可以通过公式和这两个函数计算向量的余弦相似度。

from numpy import dot
from numpy.linalg import norm
a = [1, 2, 3, 4]
b = [5, 6, 7, 8]
res = dot(a, b) / (norm(a) * norm(b))
  • sklearn

sklearn中的sklearn.metrics.pairwise.cosine_similarity函数可直接计算出两个向量的余弦相似度

from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
res = cosine_similarity(a.reshape(1, -1), b.reshape(1, -1)) # reshape(1, -1)将矩阵转化成1行

原文指路:Python 中的余弦相似度 | D栈 - Delft Stack

  • 10
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值