Jaccard(杰卡德)相似性系数




Jaccard(杰卡德)相似性系数主要用于计算符号度量或布尔值度量的样本间的相似度。若样本间的特征属性由符号和布尔值标识,无法衡量差异具体值的大小,只能获得“是否相同这样一种结果,而Jaccard系数关心的是样本间共同具有的特征。


Jaccard系数等于样本集交集个数和样本集并集个数的比值,用表示



Jaccard系数相反的概念是Jaccard距离,用两个集合中不同元素所占元素的比例来衡量两个集合(样本)的区分度,可用如下公式表示:



Jaccard系数主要的应用的场景有


  1. 过滤相似度很高的新闻,或者网页去重

  2. 考试防作弊系统

  3. 论文查重系统




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值