WMD距离
余弦相似度
设两个文本的词向量分别为A=[A1,A2,…,An],B=[B1,B2,…,Bn],两个文本的cos相似度计算方式如下:
python代码:
import numpy as np
def similarity_cos(x,y):
product = x.dot(y)
denom = np.linalg.norm(x=x, ord=2) * np.linalg.norm(x=y, ord=2)
return product/denom
A = np.array([1, 1, 1, 1, 0, 1, 0 ,0])
B = np.array([1, 1, 1, 0, 1, 1, 0 ,0])
print(similarity_cos(A,B))