1.集合的Jaccard相似度
集合S和T的Jaccard相似度为|S∩T|/|S∪T|,交集除以并集。SIM(S, T)
如上图所示,SIM(S, T) = 3/8
2. 文档的Shingling
文档的k-Shingle定义为其中任意长度为k的子串。
k值的选择依赖于文档的典型长度以及典型的字符表大小。
k值应该选的足够大,以保证热议给定的shingle出现在任意文档中的概率较低。
3. Jaccard距离
定义为d(x, y) = 1- SIM(x, y)
4. 余弦距离(cosine distance)
在具有维度的空间下余弦距离才有意义。领个点的余弦距离实际上是点所代表的向量之间的夹角。
我们先计算夹角的余弦,然后用反余弦函数将结果转化成0~180度之间的角度,从而得到余弦距离。
5. 编辑距离
只适用于字符串比较。两个字符串的编辑距离等于将x转化成y所需要的单字符插入以及删除操作的最小数目。
6. 海明距离(Hamming distance)
在一个向量空间中,海明距离定义为两个向量中不同分量的个数