属性相似性计算方法总结

基于编辑距离的相似度

   Levenshtein距离指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

   例如:

   上述转换的Levenshtein距离是3,该方法常常使用动态规划算法进行计算。距离越大,两个属性之间的相似性越低。

   Jaro-Winkler距离是一个度量两个字符序列之间的编辑距离的字符串度量标准,是Jaro距离度量标准的一种变体。Jaro距离是两个单词之间由一个转换为另一个所需的单字符转换的最小数量。Jaro-Winkler距离通过前缀因子p使Jaro距离相同时共同前缀长度l越大的相似度越高。Jaro–Winkler距离越小,两个字符串越相似。如果分数是0,则表示完全不同,分数为1则表示完全匹配。

   例如:

 

 

 

   该算法将给予起始部分就相同的字符串更高的分数,适合比如名字等较短的字符串之间计算相似性。

 

 

基于集合的相似度

Dice系数把字符串理解为一种集合,因此Dice距离也可以用于度量字符串的相似性。

其定义为:

以Lvensshtain和Levenshtein为例,两者的相似度为

Jaccard系数适合处理短文本的相似度,定义如下:

   可以看出Jaccard系数与Dice系数的定义比较相似。两种方法,将文本转换为集合,除了可以用符号分格单词外,还可以考虑用n-gram分割单词,用n-gram分割句子等来构建集合,计算相似度。

 

 

基于向量的相似度

TF-IDF的目标:评估某个字或者用某个词对一个文档的重要程度。也可以用来过滤常见词、保留重要词。

TF-IDF方法需要对文本数据进行预处理步骤,即切词,TF(Term Frequency)指一篇文档中单词出现的频率,IDF(Inverse Document Frequency)指语料库中出现某个词的文档数,取对数。

单词得分:

余弦相似度:

TF-IDF算法的优势在于算法简单,并且对所有元素进行了综合考量。但也存在致命的不足,TF-IDF把每个词看做独立的个体进行处理,忽略了词的意义,词之间的关联关系等因素。

soft-IFIDF是在TF-IDF的基础上进行了一些该改进,是一个耐拼写错误的TF-IDF相似性指标。如果单词得分(Token score)能够在内部相似性比较上得到一个较高的得分,则被认为是部分匹配的。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值