这是一篇我一直很想写的文章。
接触算法以及软件设计时间越来越久, 大概总结了一下, 经常碰到的数据类型而且处理起来最繁杂的就算是字符类型了。于是想花点时间一边学习,一边写这篇总结。 同样,这篇博客我会定时持续更新。
我将字符串处理算法大概分成:字符串Hash | LCS(KMP + 扩展KMP)| LCP(后缀数组)|(Trie + AC自动机), 题目不一定按照这个顺序更新。
字符串Hash
LCS
LCP(最长公共前缀)
主要有倍增和DC3两种方式, 都不太好理解,自己比较喜欢的是倍增写法。
所谓倍增, 就是每次2^k的范围进行比较, 其中需要用到的数组有SA和rank数组, SA[i]表示的是排名第i的后缀,rank[i]表示的是第i的后缀的排名是rank[i].
显然SA跟rank是一组互逆的关系, 知道其中一个可以很快求出另外一个。 倍增算法中就是利用这个方法结合倍增的思想, 在o(n*lgn)的时间求出SA,其中的lgn是倍增的
最大次数, 而n是基于基数排序的时间复杂度。(不一定要用基数排序, 在数据量很大的情况下可以考虑快速排序)
Trie
这是一种利用公共前缀保存字符串的算法, 相当于一个多叉路径查找树。有了这样的设计之后, 当我们在一堆字符串中查找某个字符串是否存在的效率也变的很高。
常见的写法是动态分配与静态分配两种。 如果多组数据的话, 动态分配可能会超内存(无法及时释放内存的话)则更加适合使用静态分配的方法。
题目不难, 但是相当坑。 我使用了lrj书上介绍的那种Trie写法, 但是很可惜调试好久由于内存的问题都没能A掉。最后我只能使用动态分配的方式过掉了此题。
题意:给出n(n <= 4000)个长度不超过100的字符串L1 ~ Ln, 然后给出一个字符串S,长度<3e5, 现在想将S分解成由Li的拼接起来的字符串, 求多少种拼接方式。
分析:可以确定的是要使用DP. 设dp[i]表示从i开始的字符串可以有dp[i]种分解方式, 则dp[i] = sigma(dp[k]) ( i<k<n),其中i到k-1的字符可以拼出字符串Li.
由于字符串的个数很多, 如果一个个去查找就会超时。 可以采用trie来保存字符串。 这样可以在O(n)的时间判断有没有当前拼接的字符串。
#include<cstdio>
#include<iostream>
#include<cstring>
#include<string>
#include<algorithm>
using namespace std;
const int N = 300001;
string s;
int dp[N];
const int MOD = 20071027;
int n;
struct Trie{
Trie(){
va = 0;
memset(next, NULL, sizeof(next));
}
int va;
Trie *next[26];
} *root;
void Insert(string s){
Trie* p = root;
int n = s.size();
for(int i = 0; i < n; ++i){
int c = s[i] - 'a';
if(p -> next[c] == NULL){
p -> next[c] = new Trie;
}
p = p -> next[c];
}
p -> va = 1;
}
int Gao(int src){
if(src >= n) return 1;
if(dp[src] != -1) return dp[src];
int j = src;
Trie *p = root;
int ret = 0;
while(j < n){
int idx = s[j] - 'a';
if(p -> next[idx]){
if(p -> next[idx] -> va){
// printf("j = %d\n", j);
dp[j + 1] = Gao(j + 1);
ret += dp[j + 1];
ret %= MOD;
}
p = p -> next[idx];
}
else break;
++j;
}
dp[src] = ret;
return ret;
}
int main(){
int cases = 1;
while(cin >> s){
int m;
root = new Trie;
scanf("%d", &m);
for(int i = 0; i < m; ++i){
string tmp;
cin >> tmp;
Insert(tmp);
}
n = s.size();
memset(dp, -1, sizeof(dp));
printf("Case %d: %d\n", cases++, Gao(0));
}
return 0;
}