Jaccard index记录

Jaccard index

Jaccard index,用于比较有限样本集之间的相似性和差异性。
Jaccard index值越大,样本相似性程度越高

定义

给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下
在这里插入图片描述
当集合A,B都为空时,J(A,B)定义为1。

与Jaccard 系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。Jaccard 距离越大,样本相似度越低。公式定义如下:
在这里插入图片描述
其中对参差(symmetric difference)为
在这里插入图片描述

个人理解

简单来说,就是AB交集个数占AB并集个数的比例,很直观的理解为AB之间的相似性,如果A=B,那么A∩B=A,A∪B=B。Jaccard系数为1。而如果两个集合越不相似,那么A∩B必然越小,A∪B必然越大,反映在Jaccard系数上面即为jaccard系数越小。

参考文献

https://baike.baidu.com/item/Jaccard%E7%B3%BB%E6%95%B0/6784913?fr=aladdin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值