一、介绍
Jaccard相似系数 用于比较有限样本集之间的相似性和差异性。
定义:给定两个集合A和B, jaccard 系数定义为A与B交集的大小与并集大小的比值 ,jaccard值越大说明相似度越高。
得出的 Jaccard相似系数值在0到1之间。
当A和B都为空时,jaccard(A,B)=1;
与Jaccard 系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。Jaccard 距离越大,样本相似度越低。公式定义如下:

二、
参考: