找两个字符串的最长公共子串,这个子串要求在原字符串中是连续的。而最长公共子序列则并不要求连续,即LCS问题,在之前的博客中有涉及。
找到两个字符串X,Y的最长公共子串,可以准换成一个二维数组填充数据的过程,这个二维数组是由X,Y中的元素构成,如果元素相同则为1,不同则为0,结束后遍历该二维数组,求与对角线平行的线中最长的一个,即为X,Y中的最长公共子串的长度。这里也可以使用递归的方式,代码更简单易懂。
假设X[10]={‘a’,’d’,’c’,},Y[10]={‘b’,’d’,’c’,’a’};则可以构成如下的二维数组:
a d c
b 0 0 0
d 0 1 0
c 0 0 1
a 1 0 0
很容易就发现X,Y组成的二维数组中最长的有两个1,因此最长公共子串长度为2;可以稍微做一下改进,在置1之前判断一下左上角的一个元素是否不为0,如果不为0则用那个值加上1,结束后遍历二维数组,其中最大的值就是X,Y最长公共子串长度。使用动态规划的方式,可以假设X,Y组成的二维数组为C[i][j],i=strlen(X),j=strlen(Y),当X[i]==Y[j]&&(i==0||j==0)时C[i][j]=1;当X[i]==Y[j]&&i>0&&j>0时C[i][j]=C[i-1][j-1]+1;当X[i]!=Y[j]时,C[i][j]=0。
示例代码如下:
#include <iostream>
#include<string.h>
using namespace std;
int c[100][100]={0};
int Get_LongestSubstring(const char* X,const char* Y)
{
// int index=0;
int m=strlen(X);
int n=strlen(Y);
int Max=0;
for(int i=0;i<m;++i)
for(int j=0;j<n;++j)
{
if(X[i]==Y[j])
if(i==0||j==0)
c[i][j]=1;
else
c[i][j]=c[i-1][j-1]+1;
else
c[i][j]=0;
}
for(int i=1;i<=m;++i)
for(int j=1;j<=n;++j)
{
if(c[i][j]>Max)
{
Max=c[i][j];
// index=i;
}
}
/*
cout<<"最大公共子串为:";
for(int i=0;i<Max;++i)
{
cout<<X[index-Max+1];
++index;
}
cout<<endl;
*/
return Max;
}
int main()
{
char X[10]={'a','b','c','b','d','c','a'};
char Y[10]={'b','d','c','a','b','a'};
cout<<"最大公共子串的长度是:"<<Get_LongestSubstring(X,Y)<<endl;
return 0;
}
稍微做一下改进就可以很方便的输出最大公共子串:
用一个数据标记最大的公共子串的最后一个位置,然后根据公共子串的长度就可以求出公共子串的起始位置,然后输出即可,示例代码如下:
#include <iostream>
#include<string.h>
using namespace std;
int c[100][100]={0};
int Get_LongestSubstring(const char* X,const char* Y)
{
int index=0;
int m=strlen(X);
int n=strlen(Y);
int Max=0;
for(int i=0;i<m;++i)
for(int j=0;j<n;++j)
{
if(X[i]==Y[j])
if(i==0||j==0)
c[i][j]=1;
else
c[i][j]=c[i-1][j-1]+1;
else
c[i][j]=0;
}
for(int i=1;i<=m;++i)
for(int j=1;j<=n;++j)
{
if(c[i][j]>Max)
{
Max=c[i][j];
index=i;
}
}
cout<<"最大公共子串为:";
for(int i=0;i<Max;++i)
{
cout<<X[index-Max+1];
++index;
}
cout<<endl;
return Max;
}
int main()
{
char X[10]={'a','b','c','b','d','c','a'};
char Y[10]={'b','d','c','a','b','a'};
cout<<"最大公共子串的长度是:"<<Get_LongestSubstring(X,Y)<<endl;
return 0;
}