1、余弦计算相似度
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度。
我们来举个例子: T1:你叫什么名字 T2:怎么称呼你的名字;这两个句子在意思都是在问你的名字。
我们先来分词看看那么T1的向量就是T1=[你,叫,什么,名字]、T2的向量表示就是T2=[怎么、称呼、你、的、名字];我们用T来表示T1、T2的
合集就是T=[你,叫,什么,名字,怎么,称呼,的];