基于Jaccard相似系数的相似度计算
Jaccard系数主要用于计算个体间的相似度,个体的特征属性可以通过符合度量或者布尔值标识,所以不能直接通过特征属性的差异进行直接计算,只能通特征属性是否相同进行比较。因此,Jaccard系数只关心个体间特征属性是否相同。
计算流程
对于相似性分析,首先可以基于观点“两篇文章越相似,则它们词语的交集越多”作为相似性分析的入口,该观点对应的理论基础即为Jaccard 相似系数。基于Jaccard相似系数的网页相似度计算方式,可以按照如下步骤进行,以下是两篇网页摘要:
网页 | 网页内容 |
---|---|
A | 努力建设国家级自然保护区 |
B | 保护自然保护区义不容辞 |
- 分词处理。 将网页A内容和网页B内容分别进行分词处理后,结果为“努力 建设 国家级 自然保护区” 和“保护 自然保护区 义不容辞”
- 将网页A内容对应的词语当作一个集合A,即A={“努力”,“建设”,“国家级”,“自然保护区”}, 同理,B={“保护”,“自然保护区”,“义不容辞”}
- 计算集合A和集合B的交集{“自然保护区”},计算集合A和集合B的并集{“努力”, “建设”,“国家级”, “自然保护区”,“保护”, “义不容辞”}
- 计算交集数量于并集数量的比,交集数量为1,并集数量为6,交集与并集数量的比值为0.17。
基于上述流程,可以将0.17视为网页A和网页B的相似度衡量标准,该衡量标准的原理即称作为Jaccard相似系数。