问题描述
最长共同子序列,简称为LCS,是指两个序列共有的子序列中最长的一个。所谓的子序列,不要求所选的字母连续,只要求是按原次序组成就好。如{DTER}是{ADATAEAR}的一个子序列。
解决方法
暴力解
最容易想到的一种方法,就是暴力解:穷举出所有可能的子序列,找出其中的最长共同子序列。由数学知识知,一个长度为n的序列,其子序列有2^n 个。所以相对应的,暴力解法的时间复杂度为O(2 ^n)。这个时间复杂度显然是我们不能接受的,因此下面介绍如何用动态规划的方法解决最长共同子序列的问题。
动态规划法
对于两个序列X和Y而言,只考虑他们最后一位元素Xm和Yn是否相等。若相等,则最长共同子序列为{X-Xm}和{Y-Yn}的最长共同子序列加上Xm(Yn)。若不相等,则为{X-Xm}和Y的最长共同子序列与X和{Y-Yn}的最长共同子序列中较长的那一个。
当两个序列中有一个长度为0时,返回0,结束递归。
这种方法可以求出最长共同子序列的长度,但无法知道最长共同子序列是什么。因此,我们能还需要定义两个变量char b[][],b[i][j]用来记录Xi和Yj的比较是上诉三种情况中的哪一种,如果相等,就赋值为该字符,如果不等,用1和2表示两种情况。
下面看代码:
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
void lcs(char *s1,char *s2,int **c,char **b){
int m = strlen(s1);
int n = strlen(s2);
for(int i=0;i<=m;i++){
c[i][0] = 0;
}
for(int j=0;j<=n;j++){
c[0][j] = 0;
}
for(int i=1;i<=m;i++){
for(int j=1;j<=n;j++){
if(s1[i-1]==s2[j-1]){
c[i][j] = c[i-1][j-1]+1;
b[i][j] = s1[i-1];
}
else if(c[i-1][j]>=c[i][j-1]){
c[i][j] = c[i-1][j];
b[i][j] = '1';
}
else{
c[i][j] = c[i][j-1];
b[i][j] = '2';
}
}
}
}
//递归逆序根据存储的路径打印共同子序列
void print(char **b,int m,int n){
if(m==0||n==0){
return;
}
else{
if(b[m][n]=='1'){
print(b,m-1,n);
}
else if(b[m][n]=='2'){
print(b,m,n-1);
}
else{
print(b,m-1,n-1);
printf("%c",b[m][n]);
}
}
}
int main (void){
char s1[]="ACCGGTCGAGATGCAG"; //两个待比较的字符串
char s2[]="GTCGTTCGGAATGCAT";
int m = strlen(s1);
int n = strlen(s2);
//c[i][j]表示s1前 i个字符,s2 前j个字符的最长共同子序列长度
int **c = (int **)malloc((m+1)*sizeof(int *)); //用二维数组表示二重数组,便于传参
for(int i=0;i<=n;i++){
c[i]=(int *)malloc((n+1)*sizeof(int));
}
//b[i][j]表示s1第i个字符,s2第j个字符的比较情况
char **b = (char **)malloc((m+1)*sizeof(char *));
for(int i=0;i<=n;i++){
b[i]=(char *)malloc((n+1)*sizeof(char));
}
lcs(s1,s2,c,b);
printf("%d\n",c[m][n]);
print(b,m,n);
}