《编程之美》读书笔记: 3.3 计算字符串的相似度

 


《编程之美》读书笔记11: 3.3 计算字符串的相似度

很经典的可使用动态规划方法解决的题目,和计算两字符串的最长公共子序列相似。

设Ai为字符串A(a1a2a3 … am)的前i个字符(即为a1,a2,a3 … ai)

设Bj为字符串B(b1b2b3 … bn)的前j个字符(即为b1,b2,b3 … bj)

设 L(i , j)为使两个字符串和Ai和Bj相等的最小操作次数。

当ai等于bj时 显然L(i, j)=L(i-1, j-1)

当ai不等于bj时 

若将它们修改为相等,则对两个字符串至少还要操作L(i-1, j-1)次

若删除ai或在Bj后添加ai,则对两个字符串至少还要操作L(i-1, j)次

若删除bj或在Ai后添加bj,则对两个字符串至少还要操作L(i, j-1)次

此时L(i, j)=min( L(i-1, j-1), L(i-1, j), L(i, j-1) ) + 1

显然,L(i, 0)=i,L(0, j)=j, 再利用上述的递推公式,可以直接计算出L(i, j)值。

为了保持与书中代码一致,下面的函数参数类型是string,而不是char*。

distance_1int string_distance(conststring& sa, conststring& sb)
 2{
 3 const int sz_a=sa.size()+1;
 4 const int sz_b=sb.size()+1;
 5 int i,j,k,tmp;
 6 vector< vector<int> > arr(sz_a, vector<int>(sz_b) );
 7 for (i=0; i<sz_a; ++i) arr[i][0]=i;
 8 for (j=0; j<sz_b; ++j) arr[0][j]=j;
 9
10 for (i=1; i<sz_a; ++i){
11 for (j=1; j<sz_b; ++j){
12 if( sa[i-1] == sb[j-1]) arr[i][j]=arr[i-1][j-1];
13 else{
14 tmp= arr[i-1][j] > arr[i][j-1] ? arr[i][j-1] : arr[i-1][j];
15 if (tmp>arr[i-1][j-1]) tmp=arr[i-1][j-1];
16 arr[i][j]=tmp+1;
17 }
18 }
19 }
20 return arr[sz_a-1][sz_b-1];
21}
22
23


由于只要求计算两字串的距离,计算时,只用到两列数据,因而可以对代码进一步优化,节省空间。


 distance_2int string_distance2(conststring& sa, conststring& sb)
 2{
 3 const int sz_a=sa.size()+1;
 4 const int sz_b=sb.size()+1;
 5 int sz_max=sz_a;
 6 int sz_min=sz_b;
 7 const char *longer=sa.data();
 8 const char *shorter=sb.data();
 9 if (sz_a < sz_b){
10 sz_max=sz_b;
11 sz_min=sz_a;
12 longer=sb.data();
13 shorter=sa.data();
14 }
15 int i,j,k,tmp;
16 vector<int> arr(sz_min+1);
17 for (j=0; j<sz_min; ++j) arr[j+1]=j;
18
19 for (i=1; i<sz_max; ++i){
20 arr[0]=i;
21 for (j=1; j<sz_min; ++j){
22 if( longer[i-1] != shorter[j-1]) {
23 tmp= arr[j+1] > arr[j] ? arr[j] : arr[j+1];
24 if (tmp>arr[j-1]) tmp=arr[j-1];
25 arr[j]=tmp+1; //tmp= min(arr[j-1],arr[j],arr[j+1])
26 }
27 }
28 for(j=sz_min-1; j>=0; --j) arr[j+1]=arr[j];
29 }
30 return arr[sz_min];
31}
32
33

上面的代码还可进一步优化,比如通过指针而不是数组名来访问内存。如果内存足够大,可以多申请空间,每次循环,通过修改保存的数据起始位置,避免内存复制。



补充:字符串的相似度,就是求编辑距离(edit distance)。


// ert.cpp : 定义控制台应用程序的入口点。

//

#include "stdafx.h" 

#include <string.h> 

 //递归

/*

int distance(const char * str1, int start1, int end1, const char * str2, int start2, int end2) 

    if(start1 > end1) 

    { 

        if(start2 > end2) 

            return 0; 

        else

            return end2-start2+1; 

    } 

    if(start2 > end2) 

    { 

        if(start1 > end1) 

            return 0; 

        else 

            return end1-start1+1; 

    } 

  

    if(str1[start1] == str2[start2]) 

    { 

        return distance(str1, start1+1, end1, str2, start2+1,end2); 

    } 

    else

    { 

        int t1 = distance(str1, start1+1,end1,str2,start2+1, end2)+1; 

        int t2 = distance(str1, start1,end1,str2,start2+1, end2)+1; 

        int t3 = distance(str1, start1+1,end1,str2,start2, end2)+1; 

        if(t1 < t2 && t1 < t3) 

            return t1; 

        else if(t2 < t1 && t2 < t3) 

            return t2; 

        else 

            return t3; 

    } 

*/

//动态规划

int distance2(const char * str1, int len1, const char * str2, int len2) 

    int ** dist = new int * [len1+1]; 

    for(int i=0;i<=len1;i++) 

        dist[i] = new int[len2+1]; 

    for(int i=0;i<=len1;i++) 

        dist[i][len2]=len1-i; 

    for(int i=0;i<=len2;i++) 

        dist[len1][i]=len2-i; 

    for(int i=len1-1;i>=0;i--) 

    { 

        for(int j=len2-1;j>=0;j--) 

        { 

            if(str1[i] == str2[j]) 

            { 

                dist[i][j]=dist[i+1][j+1]; 

            } 

            else

            { 

                if(dist[i+1][j] < dist[i+1][j+1] && dist[i+1][j] < dist[i][j+1]) 

                    dist[i][j] = dist[i+1][j] + 1; 

                else if(dist[i][j+1] < dist[i+1][j+1] && dist[i][j+1] < dist[i+1][j]) 

                    dist[i][j] = dist[i][j+1] + 1; 

                else

                    dist[i][j] = dist[i+1][j+1] + 1; 

            } 

        } 

    } 

    return dist[0][0]; 

  

  

  

int _tmain(int argc, _TCHAR* argv[]) 

  //  char str1[] = "abcde"; 

    //char str2[] = "bcde"; 

char str1[] = "abcdefgh"; 

    char str2[] = "abcdef";

//int a=distance(str1, 0, strlen(str1)-1, str2, 0, strlen(str2)-1);

   // printf("distance between %s and %s id %d\n", str1, str2, a); 

int a=distance2(str1, strlen(str1), str2, strlen(str2));

    printf("distance between %s and %s id %d\n", str1, str2, distance2(str1, strlen(str1), str2, strlen(str2))); 

    return 0; 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值