思路
参考了灵佬的题解
针对这种子序列问题,往往都是对每个字符进行「选和不选」的操作,因此可以利用「动态规划」来进行求解。
先做如下考虑:
令dp[i]
表示以s[i]
为结尾的子序列的数量,n
为字符串s
的长度。需要考虑以下两个问题:
- 当
dp[0], dp[1], ..., dp[i-1]
都确定下来后,如何确定dp[i]
的数量呢?即如何进行状态转移? - 返回的答案并不是简单的
dp[n-1]
,因为dp[n-1]
表示的含义是以字符s[n-1]
为结尾的子序列的数量,但是子序列可以不以s[n-1]
为结尾。因此,返回值应该如何计算?
问题一分析
-
假设
s[0], s[1], ..., s[i-1]
都不同。那么将
s[i]
自身作为一个子序列,并将s[i]
加到以s[0], s[1], ..., s[i-1]
为结尾的子序列后,构成新的一系列新的子序列,此时有:
d p [ i ] = 1 + ∑ j = 0 i − 1 d p [ j ] (1) dp[i] = 1 + \sum_{j=0}^{i-1}{dp[j]} \tag{1} dp[i]=1+j=0∑i−1dp[j](1)
其中1表示以s[i]
单独作为子序列的情况。
这里
s[i]
是可以与s[0...i-1]
中的某一个字符相同的,dp[i]
计算方式都一样,但是计算最终答案时有所区分,见后文分析问题2的部分。
-
假设
s[0], s[1], ..., s[i-1]
中存在 s [ j 0 ] = s [ j 1 ] = . . . = s [ j k ] s[j_0]=s[j_1]=...=s[j_k] s[j0]=s[j1]=...=s[jk],且 j 0 < j 1 < . . . < j k < i j_0 < j_1 < ... < j_k < i j0<j1<...<jk<i,那么dp[i]
的计算方式有所差别。首先需要理解: d p [ j 1 ] dp[j_1] dp[j1]所代表的子序列集合一定是包含 d p [ j 0 ] dp[j_0] dp[j0]所代表的子序列集合的。同理 d p [ j k ] dp[j_k] dp[jk]所代表的子序列集合一定是包含 d p [ j k − 1 ] dp[j_{k-1}] dp[jk−1]所代表的子序列集合的。(区间范围更大,得到的子序列更全)
因此当加入
s[i]
后,对于一系列相同的字符,只需要统计最后一个字符对应的子序列数量 d p [ j k ] dp[j_k] dp[jk]即可,并累加区间[0,i-1]
中不同字符结尾的数量并加1,即可得到dp[i]
。由于题目中均为小写字母,为了方便计算最后一个字符对应的子序列数量 d p [ j k ] dp[j_k] dp[jk],可以利用一个新的数组last
表示以'a'-'z'
(对应下标0-25)结尾的子序列数量。此时,
dp[i]
的计算公式为:
d p [ i ] = 1 + ∑ j = 0 25 l a s t [ j ] (2) dp[i] = 1 + \sum_{j=0}^{25}last[j] \tag{2} dp[i]=1+j=0∑25last[j](2)
-
由分析2可以发现,对于1中的公式,也可以通过公式(2)来计算。因此每次迭代字符
s[i]
时更新last[s[i] - 'a']
即可。同时也可以发现,
last
的含义与dp
的含义其实是相同的,有dp[i] = last[s[i] - 'a']
。因此可以抛弃dp
数组吗,只利用last
数组记录。last
数组的更新公式为:
l a s t [ s [ i ] − ′ a ′ ] = 1 + ∑ j = 0 25 l a s t [ j ] (3) last[s[i]-'a'] = 1 + \sum_{j=0}^{25}last[j] \tag{3} last[s[i]−′a′]=1+j=0∑25last[j](3)
问题二分析
现在dp[0...n-1]
已经全部计算出来了,但是本题的答案显然不是dp[n-1]
。
但是由于我们计算出了last
数组,通过sum(last)
其实就可以得到最终的答案。
代码实现
class Solution {
public:
int MOD = 1000000007;
int distinctSubseqII(string s) {
vector<int> vec(26);
auto last = new long long[26]{0};
for (const auto &c : s){
last[c-'a']=accumulate(last , last + 26,1LL)%MOD;
}
return accumulate(last , last + 26, 0LL)%MOD;
}
};
从上述可以发现,每次只变了last[s[i]-'a']
,同时引起sum(last)
的变化,因此可以利用一个变量total
记录每次sum(last)
的值,从而免去每次重新求和的过程。代码如下:
class Solution {
public:
int MOD = 1000000007;
int distinctSubseqII(string s) {
long long total = 0, other = 0;
auto last = new long long[26]{0};
for (const auto &c : s){
other = (total - last[c-'a'] + MOD) % MOD; // 以防负数取模
last[c-'a'] = (total + 1) % MOD;
total = (other + last[c-'a']) % MOD;
}
return total;
}
};