[题解]最长公共子序列

wingaso

已于 2022-02-16 22:53:26 修改

阅读量501

点赞数

分类专栏： C++ 题解文章标签： c++ 算法数据结构动态规划

于 2022-02-16 01:27:43 首次发布

本文链接：https://blog.csdn.net/qq_35630119/article/details/122955279

版权

题解同时被 2 个专栏收录

55 篇文章 1 订阅

订阅专栏

C++

48 篇文章 4 订阅

订阅专栏

题目

题目描述

求两个仅包含小写字母的字符串 $X, Y$ 的最长公共子序列长度。

输入格式

第一行为两个正整数 $m, n （ m < 1000, n < 1000 ）$ ，分别为两个 $X, Y$ 两个字符串的长度。

第二行是一个长度为 $m$ 的只包含小写字母的字符串。

第三行是一个长度为 $n$ 的只包含小写字母的字符串。

输出格式

根据题目要求输出一个正整数。

题解

#include<iostream>
#include<cmath>
#include<algorithm>
using namespace std;
const int N = 1010;
int f[N][N];
char X[N],Y[N];
int main(){
    int m,n;
    cin >> m >> n;
    cin >> X + 1 >> Y + 1;
    for(int i = 1;i <= m;i++)
        for(int j = 1;j <= n;j++)
            if(X[i] == Y[j]) f[i][j] = f[i - 1][j - 1] + 1;
            else f[i][j] = max(f[i][j - 1],f[i - 1][j]);
    cout << f[m][n] << endl;
    return 0;
}

这道题是动态规划的入门题。

在理解这道题之前请先确定理解了序列是什么。

举个例子：
对于字符串abcdefgh，abc、bcd是他的子序列，acfg、dgh同样也是它的子序列。
子序列中的元素在原序列中可以不连续。

朴素思路

我们先考虑朴素的思路。
比如对于样例：

abcbdab
bdcaba

其中我们可以分别枚举出两个字符串的子序列，比找出其中最长的一个共有的子序列，这个子序列的长度即为答案。

朴素做法枚举了每一个子序列，所以时间复杂度为 $O(2 ^{m + n})$ 。

时间复杂度限制了我们使用朴素思路求解此题。

动态规划思路

状态表示

类似于斐波那契数列这道题，这道题同样用一个数组 $f$ 存储一些我们需要的状态。

$f [i] [j]$ 表示 $X$ 的前 $i$ 个字符和 $Y$ 的前 $j$ 个字符的最长公共子序列长度。

——先不急怀疑这么表示的可行性，我们先假定真的可以这么表示，假定我们这么表示是可以算出答案的。

如果使用这样的状态表示，我们同样可以像朴素做法一样枚举到原字符串的所有子序列的长度，也就是说我们没有漏掉枚举任何一个子序列，而 $f [m] [n]$ （ $X$ 的前 $i$ 个字符和 $Y$ 的前 $j$ 个字符的最长子序列长度）便是我们要输出的值了。

状态计算

接下来我们看看 $f [i] [j]$ 究竟可不可以推导出来。

我们先来看一个小的样例，找找规律：

abc
bdc

注意：为了方便，我们下标从1开始，具体原因后面解释。

对于这两个字符串，它们的 $f [3] [3]$ 等于多少呢？
不难看出，它的最长公共子序列为2，所以 $f [3] [3] = 2$ 。

肉眼是容易看出，但它能不能像类似于斐波那契中的 $f [i] = f [i - 1] + f [i - 2]$ ，从更小的数据规模中推算出来呢？

在这里插入图片描述
如上图所示，我们发现，因为 $X [3]$ 和 $Y [3]$ 相等。
而 $X$ 的前两个字符和 $Y$ 的前两个字符的公共子序列长为1，所以我们可以看成是在前面最长公共子序列的基础上新找到了一个匹配的字符c。因此， $f [3] [3] = X 前两字符和 Y 前两字符的公共子序列最长长度 + 1$

又有我们的状态表示，我们可以得知，
$X 前两字符和 Y 前两字符的公共子序列最长长度 = f [2] [2]$
所以 $f [3] [3] = f [2] [2] + 1$ ，当然这里有一个特别的条件，那就是 $X [3] = Y [3]$ 。

因此，我们可以进一步得出，
当 $X [i] = Y [j]$ 时，有 $f [i] [j] = f [i - 1] [j - 1] + 1$ 。

那么问题来了，如果 $X [i]$ 和 $Y [j]$ 不相等呢？

我们再来看一个新的样例：

abcbd
bdcab

$f [5] [5]$ 等于多少呢？

在这里插入图片描述
如上图所示，我们发现，此时 $\neq Y[5]$ ，但似乎 $f [i] [j] = f [i - 1] [j - 1] + 1$ 仍然是成立的。

这个新增的“1”是从那里来的呢？
——是 $X [4] = Y [5]$ ，也就是说 $X$ 的前4个字符和 $Y$ 的前5个字符在最新的位置上匹配了，所以得到了新的公共子序列最长长度为3，因此有 $f [5] [5] = f [4] [5] = 3$ 。

即在 $X [5]$ 和 $Y [5]$ 不匹配时，我们在 $X$ 缺了一个字符的状态中取出最优值作为了当前的最优值——
因为 $\neq Y[5]$ ，所以 $X$ 的前 $5$ 个字符和 $Y$ 的前 $5$ 个字符的最长公共子序列的最大长度等于 $X$ 的前 $4$ 个字符和 $Y$ 的前 $5$ 个字符的最长公共子序列的最大长度——有没有觉得怪怪的，好像少了点什么——我们是不是同样得考虑最大长度可能等于 $X$ 的前 $5$ 个字符和 $Y$ 的前 $4$ 个字符的最长公共子序列的最大长度呀？

综上所述，我们得出当 $\neq Y[j]$ 时， $f [i] [j] = m a x (f [i - 1] [j], f [i] [j - 1])$

综合起来，状态转移方程为：
$\left\{\begin{matrix} f[i - 1][j - 1] + 1,X[i] = Y[j]\\ max(f[i - 1][j],f[i][j - 1]),X[i] \neq Y[i] \end{matrix}\right.$

为什么下标从1开始？

我们注意到最终的状态转移方程中存在 $i - 1$ 和 $j - 1$ 的下标访问情况，如果下标从0开始，需要特别注意防止越界访问。
状态表示中， $f [i] [j]$ 表示 $X$ 的前 $i$ 个字符和 $Y$ 的前 $j$ 个字符的最长公共子序列长度。因此 $i$ 和 $j$ 从 $1$ 开始更加合适。