编程之美 计算字符串的相似度

许多程序会大量使用字符串。对于不同的字符串,我们希望能够有办法判断其相似程度。我们定义了一套操作方法来把两个不同的字符串变得相同,具体的操作方法为:

        1.修改一个字符(如把"a“替换为"b");

         2.增加一个字符(如把"abdd"变为"aebdd");

         3.删除一个字符(如把"travelling"变为"traveling")。

比如,对于“abcdefg“和”abcdef“俩个字符串来说,我们认为可以通过增加/减少一个”g“的方式来达到目的。上面的俩种方案,都仅需要一次操作。把这个操作所需要的次数定义为俩个字符串的距离,相似度等于”距离+1“的倒数。也就是说,”abcdefg“和”abcdef“的距离为1,相似度为1/2=0.5。

给定任意俩个字符串,你是否能写出一个算法来计算出它们的相似度呢?

利用LCS的思想:

        假设两个字符串A={A1,A2,A3,...},B={B1,B2,B3,...}。采用类似lcs的dp思想。设c[i][j]表示字符串A1...Ai,B1...Bj的距离,如果Ai=Bj,则c[i][j]=c[i-1][j-1];

        如果Ai!=Bj,c[i][j]=min(c[i-1][j]+1,c[i][j-1]+1,c[i-1][j-1]+1);

代码如下:

int EditDistance(char* DstStr,char* SrcStr)
{
   char* tmpDstStr= DstStr;
   char* tmpSrcStr= SrcStr;
   int c[N][M];
   int i=0;
   int j=0;
   while(*DstStr++!='\0') i++;
   while(*SrcStr++!='\0') j++;
   for(int m=0;m<j;++m)
   c[0][m]=m;
   for(int n=0;n<i;++n)
   c[n][0]=n;
   for(int m=1;m<=i;++m)
	   for(int n=1;n<=j;++n)
             if(tmpDstStr[m]==tmpSrcStr[n])
                c[m][n]=c[m-1][n-1];
			 else
			 {
				 c[m][n]=min(c[m-1][n-1]+1,c[m-1][n]+1);
				 c[m][n]=min(c[m][n],c[m][n-1]+1);
			 }
    
return c[i][j];

}


之前求:数组中的最长递增子序列时,对数组先排序,然后找出两个数组里的LCS,这个也可以求出LCS,然后Max(SrcStr,DstStr)-LCS。看不出来LCS还这么有用哦。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值