C#实现字符串相似度算法

字符串的相似性比较应用场合很多,像拼写纠错、文本去重、上下文相似性等。

 

评价字符串相似度最常见的办法就是:

把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种就是编辑距离(edit distance)度量方法,也称为Levenshtein距离。

海明距离是编辑距离的一种特殊情况,只计算等长情况下替换操作的编辑次数,只能应用于两个等长字符串间的距离度量。

 

其他常用的度量方法还有 Jaccard distance、J-W距离(Jaro–Winkler distance)、余弦相似性(cosine similarity)、欧氏距离(Euclidean distance)等。

 

https://github.com/luchaoshuai/fuzzystring-standard

转载于:https://www.cnblogs.com/luchaoshuai/p/9657887.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你可以使用C#字符串比较方法来计算两个字符串之间的相似度。常用的算法有Levenshtein距离和Jaro-Winkler距离。下面是使用这两种算法计算字符串相似度的示例代码: ```csharp using System; class Program { static void Main(string[] args) { string str1 = "hello"; string str2 = "hallo"; double levenshteinDistance = LevenshteinDistance(str1, str2); double jaroWinklerDistance = JaroWinklerDistance(str1, str2); Console.WriteLine("Levenshtein Distance: " + levenshteinDistance); Console.WriteLine("Jaro-Winkler Distance: " + jaroWinklerDistance); } static double LevenshteinDistance(string s, string t) { int n = s.Length; int m = t.Length; int[,] d = new int[n + 1, m + 1]; if (n == 0) { return m; } if (m == 0) { return n; } for (int i = 0; i <= n; i++) { d[i, 0] = i; } for (int j = 0; j <= m; j++) { d[0, j] = j; } for (int j = 1; j <= m; j++) { for (int i = 1; i <= n; i++) { int cost = (s[i - 1] == t[j - 1]) ? 0 : 1; d[i, j] = Math.Min(Math.Min( d[i - 1, j] + 1, d[i, j - 1] + 1), d[i - 1, j - 1] + cost); } } return 1.0 - (double)d[n, m] / Math.Max(n, m); } static double JaroWinklerDistance(string s, string t) { int sLen = s.Length; int tLen = t.Length; if (sLen == 0 && tLen == 0) { return 1.0; } int matchDistance = Math.Max(sLen, tLen) / 2 - 1; bool[] sMatches = new bool[sLen]; bool[] tMatches = new bool[tLen]; int matches = 0; for (int i = 0; i < sLen; i++) { int start = Math.Max(0, i - matchDistance); int end = Math.Min(i + matchDistance + 1, tLen); for (int j = start; j < end; j++) { if (tMatches[j]) { continue; } if (s[i] != t[j]) { continue; } sMatches[i] = true; tMatches[j] = true; matches++; break; } } if (matches == 0) { return 0.0; } int tPrefix = 0; for (int i = 0; i < tLen && tMatches[i]; i++) { tPrefix++; } double jaro = ((double)matches / sLen + (double)matches / tLen + (double)(matches - tPrefix) / matches) / 3; int j = 0; while (j < Math.Min(sLen, 4) && s[j] == t[j]) { j++; } if (j == 0) { return jaro; } double jaroWinkler = jaro + Math.Min(0.1, 1.0 / Math.Max(sLen, tLen) * j * (1.0 - jaro)); return jaroWinkler; } } ``` 在上面的示例中,`LevenshteinDistance`方法使用Levenshtein距离算法计算字符串相似度,并返回一个介于0和1之间的值。这个值越接近1,表示两个字符串越相似。 `JaroWinklerDistance`方法使用Jaro-Winkler距离算法计算字符串相似度,并返回一个介于0和1之间的值。这个值越接近1,表示两个字符串越相似。Jaro-Winkler距离算法还考虑了字符串的前缀匹配,因此对于具有相同前缀的字符串,它的结果会更准确。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值