目录
1.欧氏距离
在欧几里得空间中,欧式距离其实就是向量空间中两点之间的距离。点 x = (x_{1}, ..., x_{n}) 和 y = (y_{1}, ..., y_{n}) 之间得欧氏距离计算公式如下:
d(x,y) = sqrt {((x_{1}-y_{1})^{2} + (x_{2}-y_{2})^{2} + ... + (x_{n}-y_{n})^{2})}
2.余弦相似度
通过对两个文本分词,`TF-IDF` 算法向量化,利用空间中两个向量的夹角,来判断这两个向量的相似程度:(`计算夹角的余弦,取值 0-1`)
+ 当两个向量夹角越大,距离越远,最大距离就是两个向量夹角 180°;
+ 夹角越小,距离越近,最小距离就是两个向量夹角 0°,完全重合。
+ 夹角越小相似度越高,但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大不适合大数据量的计算。
3.余弦相似度和欧氏距离的区别
+ 欧式距离和余弦相似度都能度量 `2` 个向量之间的相似度
+