c#字符相似度对比通用类

go:http://www.cnblogs.com/stone_w/archive/2012/08/16/2642679.html

本类适用于比较2个字符的相似度,代码如下:

View Code

调用方法:

复制代码
// 方式一
StringCompute stringcompute1 = new StringCompute();
stringcompute1.SpeedyCompute("对比字符一", "对比字符二");    // 计算相似度, 不记录比较时间
decimal rate = stringcompute1.ComputeResult.Rate;         // 相似度百分之几,完全匹配相似度为1

// 方式二
StringCompute stringcompute2 = new StringCompute();
stringcompute2.Compute();                                  // 计算相似度, 记录比较时间
string usetime = stringcompute2.ComputeResult.UseTime;     // 对比使用时间
复制代码

 

 


作者:西安.王磊 
出处:http://stone_w.cnblogs.com/ 
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。 

标签:  asp.netc#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
namespace ServiceRanking { /// <summary> /// Summary description for TF_IDFLib. /// </summary> public class TFIDFMeasure { private string[] _docs; private string[][] _ngramDoc; private int _numDocs=0; private int _numTerms=0; private ArrayList _terms; private int[][] _termFreq; private float[][] _termWeight; private int[] _maxTermFreq; private int[] _docFreq; public class TermVector { public static float ComputeCosineSimilarity(float[] vector1, float[] vector2) { if (vector1.Length != vector2.Length) throw new Exception("DIFER LENGTH"); float denom=(VectorLength(vector1) * VectorLength(vector2)); if (denom == 0F) return 0F; else return (InnerProduct(vector1, vector2) / denom); } public static float InnerProduct(float[] vector1, float[] vector2) { if (vector1.Length != vector2.Length) throw new Exception("DIFFER LENGTH ARE NOT ALLOWED"); float result=0F; for (int i=0; i < vector1.Length; i++) result += vector1[i] * vector2[i]; return result; } public static float VectorLength(float[] vector) { float sum=0.0F; for (int i=0; i < vector.Length; i++) sum=sum + (vector[i] * vector[i]); return (float)Math.Sqrt(sum); } } private IDictionary _wordsIndex=new Hashtable() ; public TFIDFMeasure(string[] documents) { _docs=documents; _numDocs=documents.Length ; MyInit(); } private void GeneratNgramText() { } private ArrayList GenerateTerms(string[] docs) { ArrayList uniques=new ArrayList() ; _ngramDoc=new string[_numDocs][] ; for (int i=0; i < docs.Length ; i++) { Tokeniser tokenizer=new Tokeniser() ; string[] words=tokenizer.Partition(docs[i]); for (int j=0; j < words.Length ; j++) if (!uniques.Contains(words[j]) ) uniques.Add(words[j]) ; } return uniques; } private static object
你可以使用C#字符串比较方法来计算两个字符串之间的相似度。常用的算法有Levenshtein距离和Jaro-Winkler距离。下面是使用这两种算法计算字符串相似度的示例代码: ```csharp using System; class Program { static void Main(string[] args) { string str1 = "hello"; string str2 = "hallo"; double levenshteinDistance = LevenshteinDistance(str1, str2); double jaroWinklerDistance = JaroWinklerDistance(str1, str2); Console.WriteLine("Levenshtein Distance: " + levenshteinDistance); Console.WriteLine("Jaro-Winkler Distance: " + jaroWinklerDistance); } static double LevenshteinDistance(string s, string t) { int n = s.Length; int m = t.Length; int[,] d = new int[n + 1, m + 1]; if (n == 0) { return m; } if (m == 0) { return n; } for (int i = 0; i <= n; i++) { d[i, 0] = i; } for (int j = 0; j <= m; j++) { d[0, j] = j; } for (int j = 1; j <= m; j++) { for (int i = 1; i <= n; i++) { int cost = (s[i - 1] == t[j - 1]) ? 0 : 1; d[i, j] = Math.Min(Math.Min( d[i - 1, j] + 1, d[i, j - 1] + 1), d[i - 1, j - 1] + cost); } } return 1.0 - (double)d[n, m] / Math.Max(n, m); } static double JaroWinklerDistance(string s, string t) { int sLen = s.Length; int tLen = t.Length; if (sLen == 0 && tLen == 0) { return 1.0; } int matchDistance = Math.Max(sLen, tLen) / 2 - 1; bool[] sMatches = new bool[sLen]; bool[] tMatches = new bool[tLen]; int matches = 0; for (int i = 0; i < sLen; i++) { int start = Math.Max(0, i - matchDistance); int end = Math.Min(i + matchDistance + 1, tLen); for (int j = start; j < end; j++) { if (tMatches[j]) { continue; } if (s[i] != t[j]) { continue; } sMatches[i] = true; tMatches[j] = true; matches++; break; } } if (matches == 0) { return 0.0; } int tPrefix = 0; for (int i = 0; i < tLen && tMatches[i]; i++) { tPrefix++; } double jaro = ((double)matches / sLen + (double)matches / tLen + (double)(matches - tPrefix) / matches) / 3; int j = 0; while (j < Math.Min(sLen, 4) && s[j] == t[j]) { j++; } if (j == 0) { return jaro; } double jaroWinkler = jaro + Math.Min(0.1, 1.0 / Math.Max(sLen, tLen) * j * (1.0 - jaro)); return jaroWinkler; } } ``` 在上面的示例中,`LevenshteinDistance`方法使用Levenshtein距离算法计算字符串相似度,并返回一个介于0和1之间的值。这个值越接近1,表示两个字符串相似。 `JaroWinklerDistance`方法使用Jaro-Winkler距离算法计算字符串相似度,并返回一个介于0和1之间的值。这个值越接近1,表示两个字符串相似。Jaro-Winkler距离算法还考虑了字符串的前缀匹配,因此对于具有相同前缀的字符串,它的结果会更准确。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值