题意:给出一个由S个不同的字符串组成的字典和一个长字符串,问:把这个长字符串分解成若干个字典中出现的字符串,共有几种分法。单词可以重复使用。
最开始的想法是记忆化搜索,对于一个字符串s[i, j]枚举中间位置k(i<k<j)将其分成两个子串,递归求解,但是这样时间和空间都不允许。然后就想到递推:开始是从左往右推:dp(i)表示子串s[0, i]的拆分方案数,然后枚举它的每个后缀判断其是否在字典树中,转移方程:dp(i) = { sum(dp(i - len(x))) | x为s[0, i]的后缀且出现在字典树中 };但是这样时间依然高达O(n^2 * 100),效率还是太低。
上面的方法的瓶颈在于:对于每个子串s[0, i],枚举每一个后缀没有利用到串的连续性,而进行了大量重复的操作。如果是枚举每一个前缀的话就可以在线性时间完成所有的枚举了,那么怎样才能用枚举前缀的方法递推呢。可以想到把从左往右递推改成从右往左,这样就变成了枚举子串s[i, len(s)]的每个前缀了,可以通过在字典树中查找s[i, len(s)]每遇到一个单词节点就对dp(i)进行相应的操作。时间就降为O(n * 100)。
#include <iostream>
#include <cstring>
#include <cstdio>
using namespace std;
const int sigma_size = 26;
const int maxnode = 500000;
int dp[400000];
char str[400000];
char s[200];
const int mod = 20071027;
int ss;
struct Trie
{
int ch[maxnode][sigma_size];
int val[maxnode];
int sz;
Trie() : sz(1) { memset(ch[0], 0, sizeof(ch[0])); }
void reset() { memset(ch, 0, sizeof(ch)); memset(val, 0, sizeof(val)); sz = 1; }
int idx(char c) { return c - 'a'; }
void insert(char * s, int v)
{
int u = 0;
for(int i = 0; s[i]; ++i)
{
int c = idx(s[i]);
if(!ch[u][c])
{
memset(ch[sz], 0, sizeof(ch[sz]));
val[sz] = 0;
ch[u][c] = sz++;
}
u = ch[u][c];
}
val[u] = v;
}
int query(char * s, int a)
{
int u = 0, res = 0;
for(int i = a; s[i]; ++i)
{
int c = idx(s[i]);
if(!ch[u][c]) return res;
u = ch[u][c];
if(val[u]) // 查询到单词节点
{
res += dp[i + 1];
res %= mod;
}
}
return res;
}
}T;
int main()
{
int cc = 1;
freopen("in.txt", "r", stdin);
while(~scanf("%s", str))
{
T.reset();
memset(dp, 0, sizeof(dp));
scanf("%d", &ss);
for(int i = 0; i < ss; ++i)
{
scanf("%s", s);
T.insert(s, 1);
}
dp[strlen(str)] = 1;
for(int i = strlen(str) - 1; i >= 0; --i)
{
dp[i] = T.query(str, i);
//printf("%d: %d\n", i, dp[i]);
}
printf("Case %d: %d\n", cc++, dp[0]);
}
return 0;
}
/*
abcd
4
a
b
cd
ab
Case 1: 2
*/