字符串相似度算法和最大公共子串提取算法

字符串相似度算法和最大公共子串提取算法

1. Levenshtein Distance

该算法又称之为 "编辑距离",用于计算两个字符串的相似程度。原理很简单,就是返回两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。次数越少,意味着字符串相似度越高。

例如将 kitten 转换成 sitting:

sitten (k→s)

sittin (e→i)

sitting (→g)

俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。


算法原理:

下面为你展示一个编辑距离计算的实例。源字符串是 "GUMBO" ,目标字符串是 "GAMBOL".

Steps 1 and 2

Steps 3 to 6 When i = 1

Steps 3 to 6 When i = 2

Steps 3 to 6 When i = 3

Steps 3 to 6 When i = 4

Steps 3 to 6 When i = 5

Step 7

编辑距离就是矩阵右下角的数字 2. 这与我们的实际计算相符. "GUMBO" 能够转换到 "GAMBOL" 通过将 "U" 替换为 "A" 和插入 "L" (1次替换 + 1次插入 = 2次改变). 


C++ 算法实现Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
//相似程度分析函数(运用“编辑距离Levenshtein Distance”算法)
//返回将第一个字符串转换(删除、插入、替换)成第二个字符串的最少编辑次数
int  Levenshtein_Distance( const  string strL1, const  string strL2)
{
     //获得两字符串长度
     int  L1=strL1.size(),L2=strL2.size();
     //构建处理二维矩阵
     vector<vector< int >> x(L2+1,L1+1);
     //特殊情况返回
     if (strL1==strL2)
     {
         return  0;
     }
     else
     {
         if (L1==0)
         {
             return  L2;
         }
         if (L2==0)
         {
             return  L1;
         }
     }
     //依次为第一行和第一列赋值
     for ( int  i=1;i<=L1;i++)
     {
         x[0][i]=i;
     }
     for ( int  i=1;i<=L2;i++)
     {
         x[i][0]=i;
     }
  
     for ( int  j=1;j<=L1;j++)
     {
         for ( int  i=1;i<=L2;i++)
         {
             int  cost;
             //由矩阵对应字符串字符获得代价值cost
             if (strL1[j-1]==strL2[i-1])
             {
                 cost=0;
             }
             else
             {
                 cost=1;
             }
             //由2*2矩阵周围数字确定当前位置数值(求最小值)
             x[i][j]=min(x[i-1][j-1]+cost,x[i-1][j]+1,x[i][j-1]+1);
         }
     }
  
     return  x[L2][L1];
}
  
//求最小值函数
int  min( const  int  N1, const  int  N2, const  int  N3)
{
     int  min;
     if (N1<N2)
     {
         if (N1<N3)
         {
             return  N1;
         }
         else
         {
             return  N3;
         }
     }
     else
     {
         if (N2<N3)
         {
             return  N2;
         }
         else
         {
             return  N3;
         }
     }
}

2. LCS

LCS (Longest Common Subsequence) 算法用于找出两个字符串最长公共子串。


算法原理:

(1) 将两个字符串分别以行和列组成矩阵。

(2) 计算每个节点行列字符是否相同,如相同则为 1。

(3) 通过找出值为 1 的最长对角线即可得到最长公共子串。


   人 民 共 和 时 代

中 0, 0, 0, 0, 0, 0

华 0, 0, 0, 0, 0, 0

人 1, 0, 0, 0, 0, 0

民 0, 1, 0, 0, 0, 0

共 0, 0, 1, 0, 0, 0

和 0, 0, 0, 1, 0, 0

国 0, 0, 0, 0, 0, 0


为进一步提升该算法,我们可以将字符相同节点(1)的值加上左上角(d[i-1, j-1])的值,这样即可获得最大公用子串的长度。如此一来只需以行号和最大值为条件即可截取最大子串。


  人 民 共 和 时 代

中 0, 0, 0, 0, 0, 0

华 0, 0, 0, 0, 0, 0

人 1, 0, 0, 0, 0, 0

民 0, 2, 0, 0, 0, 0

共 0, 0, 3, 0, 0, 0

和 0, 0, 0, 4, 0, 0

国 0, 0, 0, 0, 0, 0


C++ 算法实现Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
//提取最大公共子串函数(运用LCS即Longest Common Subsequence算法)
string LCS( const  string strL1, const  string strL2)
{
     //获取两个源串的长度
     int  L1=strL1.size(),L2=strL2.size();
     //构建二维矩阵
     vector<vector< int >> x(L2,L1);
     //特殊情况返回
     if (strL1 == strL2)
     {
             return  strL1;
     }
         if (strL1.size()==0 || strL2.size()==0)
     {
         return  "" ;
     }
  
     int  length=0,index=0;
     for ( int  i=0;i<L2;i++)
     {
         for ( int  j=0;j<L1;j++)
         {
             int  n=(i>=1 && j>=1)? x[i-1][j-1]:0;
  
             x[i][j]=(strL2[i]==strL1[j])? 1+n:0;
             //获得最长子串末尾数值和位置
             if (x[i][j]>length)
             {
                 length=x[i][j];
                 index=i;
             }
         }
     }
  
     return  string(strL2,index-length+1,length);
}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值