Jaccard 相似系数又称为Jaccard相似性度量(Jaccard系数,Jaccard 指数,Jaccard index)。用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。定义为相交的大小除以样本集合的大小:
(若A B均为空,那么定义J(A,B)= 1)
与 Jaccard 相似系数相对的指标是Jaccard 距离(Jaccard distance),定义为 1- Jaccard系数,即:
Python 代码:
data_school_list = data['school'].unique().tolist() #school列表
edu_similar=[]
l = len(data_school_list)#定义循环次数
for i in data_school_lis