基于Jaccard相似系数的相似度计算 -《大数据时代的算法》学习笔记

基于Jaccard相似系数的相似度计算

Jaccard系数主要用于计算个体间的相似度,个体的特征属性可以通过符合度量或者布尔值标识,所以不能直接通过特征属性的差异进行直接计算,只能通特征属性是否相同进行比较。因此,Jaccard系数只关心个体间特征属性是否相同。

计算流程

对于相似性分析,首先可以基于观点“两篇文章越相似,则它们词语的交集越多”作为相似性分析的入口,该观点对应的理论基础即为Jaccard 相似系数。基于Jaccard相似系数的网页相似度计算方式,可以按照如下步骤进行,以下是两篇网页摘要:

网页网页内容
A努力建设国家级自然保护区
B保护自然保护区义不容辞
  1. 分词处理。 将网页A内容和网页B内容分别进行分词处理后,结果为“努力 建设 国家级 自然保护区” 和“保护 自然保护区 义不容辞”
  2. 将网页A内容对应的词语当作一个集合A,即A={“努力”,“建设”,“国家级”,“自然保护区”}, 同理,B={“保护”,“自然保护区”,“义不容辞”}
  3. 计算集合A和集合B的交集{“自然保护区”},计算集合A和集合B的并集{“努力”, “建设”,“国家级”, “自然保护区”,“保护”, “义不容辞”}
  4. 计算交集数量于并集数量的比,交集数量为1,并集数量为6,交集与并集数量的比值为0.17。

基于上述流程,可以将0.17视为网页A和网页B的相似度衡量标准,该衡量标准的原理即称作为Jaccard相似系数。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值