Jaccard

与余弦相似度一样,jaccard系数也适用于衡量两个集合之间的区分度。

现有集合A,B

jaccard系数:J(A,B)=|A∩B|/|A∪B|            (1)

jaccard距离:=1-J(A,B)=(|A∪B|-|A∩B|)/|A∪B|            (2)

jaccard距离是与jaccard系数相反的概念。jaccard系数越大,二者越相似;而jaccard距离越大,二者越不相似。


有说:jaccard系数主要是处理非对称二元属性

非对称二元属性在上一个小问题中解释了。但是我想要提一句我自己的想法(可以帮助理解对称与非对称):这里的对称是针对属性,不是相似度。例如,我们可以说余弦相似度是属于对称的相似度,因为D(A,B)=D(B,A)的。

对于非对称二元属性来讲,属性的0,1两个状态的权重是不一样的,通俗一点说,就是两个状态的重要性不一样。按照惯例,通常将重要的状态取值为一。举个例子,HIV检测结果为阴性和阳性,阴性出现的很多很常见,而阳性的检测结果却相对很少,所以总体讲阳性的检测结果稀少而重要(其实自己感觉也可以感觉出来),而阴性相对不那么重要。可以看出来这里HIV检测结果就是一个非对称二元属性。HIV(阳性)取1,HIV(阴性)取0。


对于两个二元属性的取值的比较有下面几种情况:

p:(1,1)二者同时取1的次数

q:(1,0)

t:(0,1)

s:(0,0)

由于(0,0)负匹配的情况是不重要的,我们计算的时候会省略,所以有

jaccard系数=p/(p+q+t);            (3)

其实当我们把某属性存在看为1,不存在看为0,就可以理解公式(1)和公式(3)。


Jaccard Similarity算法是一种用来计算样本集合之间相似度的算法。它通过计算两个集合的交集大小与并集大小的比值来衡量相似度。Jaccard系数越大,说明集合之间的相似度越大。在Neo4j中,可以使用`algo.similarity.jaccard`函数来计算Jaccard Similarity。该函数接受两个样本集合作为参数,并返回它们之间的相似度值。示例代码如下: ``` CALL algo.similarity.jaccard([1,2,3], [1,2,4,5]) AS similarity ``` 这段代码计算了集合和集合之间的Jaccard相似度,并将结果存储在名为`similarity`的变量中。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [neo4j相似性算法(Similarity algorithms)-1.The Jaccard Similarity algorithm](https://blog.csdn.net/name__student/article/details/97010623)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [NEO4J-相似度算法01-杰卡德相似度介绍及应用场景简介](https://blog.csdn.net/lijunliang2017/article/details/119544863)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值