1、LCS的基本概念
子序列:一个序列X任意删除若干个字符得到新序列Z,则Z叫做X的子序列。例如Z=<B,C,D,B>是X=<A,B,C,B,D,A,B>的 子序列,相当于删除A、B、A。
公共子序列:给定两个序列X和Y,如果Z既是X的子序列,也是Y的子序列,我们称它为X和Y的公共子序列。公共子序列可 能不唯一。例如<B,C,A>是X=<A,B,C,B,D,A,B>和Y=<B,D,C,A,B,A>的一个公共子序列。
最长公共子序列:Longest Common Subsequence,简称LCS。如果Z是X和Y的公共子序列,且是最长的那个,则称Z是 X和Y的最长公共子序列。例如<B,C,B,A>是X=<A,B,C,B,D,A,B>和Y=<B,D,C,A,B,A>的一个最长公共子序列,<B,D,A,B> 也是。它也可能不唯一。
注:(1)为了简便,上面我们讨论的都是两个序列的公共子序列,当然,也可以是3个、4个等等。(2)它和最长公共子串是有 区别的,最长公共子串要求连续。
2、LCS的意义和应用
求两个序列中最长的公共子序列算法,广泛的应用在图形相似处理、媒体流的相似比较、计算生物学方面。生物学家常常 利用该算法进行基因序列比对,由此推测序列的结构、功能和演化过程。
LCS可以描述两段文字之间的“相似度”,即它们的雷同程度,从而能够用来辨别抄袭。另一方面,对一段文字进行修改之 后,计算改动前后文字的最长公共子序列,将除此子序列外的部分提取出来,这种方法判断修改的部分,往往十分准确。简 而言之,百度知道、百度百科都用得上。
3、LCS的最优子结构
在这里先说些前缀的概念,给定一个序列X=<x1,x2,…,xm>,对i=0,1,…,m,定义X的第i前缀为Xi=<x1,x2,…,xi>。例如,若 X=<A,B,C,B,D,A,B>,则X4=<A,B,C,B>,X0为空串。
令X=<x1,x2,…,xm>和Y=<y1,y2,…,yn>为两个序列,Z=<z1,z2,…,zk>为X和Y的任意LCS。
1)如果xm=yn,则zk=xm=yn且Zk-1是Xm-1和Yn-1的一个LCS。也就是
例如:
2)如果xm≠yn,那么zk≠xm意味着Z是xm-1和Y的一个LCS。
也就是,LCS(Xm,Yn)=LCS(Xm-1,Yn)。
3)如果xm≠yn,那么zk≠yn意味着Z是X和Yn-1的一个LCS。也就是,LCS(Xm,Yn)=LCS(Xm,Yn-1)。
例如:
4、LCS的分析总结
显然,是动态规划问题。
5、LCS的代码实现
#include<cstdio>
#include<cstring>
#include<iostream>
#include<algorithm>
using namespace std;
char str1[105];
char str2[105];
int dp[105][105];
int main()
{
while(cin>>str1>>str2)
{
int len1=strlen(str1);
int len2=strlen(str2);
memset(dp,0,sizeof(dp));
for(int i=0;i<len1;i++)
{
for(int j=0;j<len2;j++)
{
if(str1[i]==str2[j])
dp[i+1][j+1]=dp[i][j]+1;
else
dp[i+1][j+1]=max(dp[i+1][j],dp[i][j+1]);
}
}
cout<<dp[len1][len2]<<endl;
}
return 0;
}